Perfiles
de parámetros acústicos de la Voz, su uso e incidencia
como método práctico para la implantación y
rehabilitación de la Voz y el Habla.
<Resumen><Antecedentes><Nuevos
desarrollos y presentaciones>
<Extracción y medición
de parámetros><FFT: Espectro
de frecuencia>
<Aplicaciones
en rehabilitación y diagnóstico. Parámetros>
<Conclusiones><Sistemas
y resultados alcanzados><Bibliografía><Referencias>
4.1 Area educacional.
4.2 Área médica.
Sergio Suárez Guerra
Centro de investigación en Computación (CIC) –IPN,
CP 07738, México D.F.
Instituto de Cibernética, Matemática y Física
(ICIMAF) de Cuba, Calle 15 e/ C y D Vedado, Ciudad de La Habana.
Número de teléfono: (552) 55- 5729 6000 ext. 56588.
Fax: (552) 55- 5586 2936
E-Mail: ssuarez@cic.ipn.mx
; sergio@icmf.inf.cu
Resumen
La posibilidad de “ver lo que se dice”, ha resultado
muy novedosa como método para la implantación y rehabilitación
de la Voz y el Habla. Visualizar de forma inmediata, mediante una
gráfica, los perfiles acústicos de los principales
parámetros de la señal de voz y asociarlos con imágenes
que representan lo dicho, ha resultado una alternativa adicional
muy estimulante en el campo de la Foniatría y en Escuelas
Especiales. En protocolos de investigación realizados durante
un año en Escuelas Especiales, se ha notado un adelanto sustancial
en el aprendizaje de la correcta dicción, en aquellos alumnos
que adicionalmente al método tradicional, utilizaron un sistema
de extracción y visualización de perfiles acústicos,
representación de imágenes asociada al sonido y realimentación
auditiva del sonido patrón y del producido por el usuario
durante la sesión de trabajo. En el presente año escolar,
el sistema Exparam V.2.0, continua siendo una opción para
su introducción a Nivel Nacional en la Escuelas Especiales
de la República de Cuba. Estadísticas del uso de la
aplicación de la versión 1.2 se obtuvieron en el curso
2000 - 2001 y se esperan resultados del uso de la versión
2.0 a finales del curso 2002 – 2003. En el CIC – IPN
del DF, México, se termina un sistema que a modo de evaluación
se prueba en el Instituto de la Comunicación Humana (InCH)
de México D.F, que busca apoyar la gestión en consultas
de foniatría mediante el análisis de la voz y que
involucra de igual manera la representación de perfiles acústicos,
así como la inclusión de una base de datos clínicos
de los pacientes. La versión Exparam 2.0 es utilizada en
el InCH, para la creación de carpetas de archivos de voces
clasificados por problemas, a partir de las cuales se desarrollaran
nuevas aplicaciones con el empleo del análisis de las características
de perfiles acústicos de la voz.
Palabras clave: Speech, Voice proccesing, Voice
parameters, Acoustic voice analysis.
Antecedentes
Desde mediados de la década de los 80 se inició el
desarrollo y comercialización de sistemas de análisis
de voz con graficación de perfiles paramétricos, entre
los parámetros más comunes tenemos la intensidad de
la señal y su cruce por ceros. Estos perfiles paramétricos
se realizaban no sólo para la señal pura de voz, también
se realizaban para determinadas bandas de frecuencias bien estudiadas
en las cuales está el mayor contenido de la información
hablada: formantes o frecuencias de resonancias del tracto vocal,
así como la parte del espectro que caracteriza a los sonidos
fricativos y el tono fundamental.
En la década de los 90 aparecieron sistemas, que sin mostrar
los perfiles de parámetros acústicos, presentaban
imágenes capaces de ser movidas o alteradas por la presencia
de determinado nivel o duración de un parámetro en
específico. A principios de esa década se construyó
un equipo a la medida llamado VIDEOVOZ, cuyo objetivo es la extracción
y representación de perfiles paramétricos acústicos
de la señal de voz en tiempo real, con posibilidades de realizar
comparaciones cualitativas de dos perfiles acústicos, con
fines de entrenamiento. La posibilidad de representación
de los perfiles paramétricos en tiempo real, incorpora el
elemento de realimentación visual de “ver lo que se
dice”. De este equipo se construyeron una cantidad superior
a 20 y fueron instalados en las escuelas provinciales de Educación
Especial de la República de Cuba.
A finales de los 90’s se concluyó la primera versión
del software: “Sistema para la extracción y análisis
de parámetros de la voz” EXPARAM V.1.2; el mismo contiene
la versión de presentación que utiliza el VIDEOVOZ
y adiciona la posibilidad de disponer de una biblioteca de archivos
de voces para el auto entrenamiento, así como la realimentación
auditiva del sonido representado en las gráficas de perfiles,
elemento éste muy útil para percibir la dicción
de lo que el usuario dice, o sea, doble realimentación: visual
y auditiva. De manera experimental se instaló en una escuela
de niños sordos y con trastornos del lenguaje, realizándose
una evaluación del mismo en las actividades de enseñanza
para niños de 4to y 5to grado, los resultados fueron alentadores,
los profesores se familiarizaron con el uso de computadoras personales
estándares y el software aplicado, los niños aceptaron
el producto como un elemento de aprendizaje que les posibilitaba
además el acceso a las computadoras.
A inicios del siglo XXI se continúa el desarrollo de aplicaciones
para la educación y se inicia el diseño y programación
de sistemas para el análisis de voz en el área médica
de consultas de foniatría.
Nuevos desarrollos y presentaciones

El objetivo central para los nuevos desarrollos se presenta en
dos líneas: los sistemas educacionales y las aplicaciones
médicas.
En la Figura No.1, podemos ver el esquema de trabajo del proyecto
actual.
La figura No.1 representa el conjunto de bloques, procesos y su
ínter relación, de las tareas a diseñar y poner
en funcionamiento, en un proyecto de investigación que se
lleva acabo de forma conjunta entre el Centro de Investigación
en Computación (CIC – IPN de México) y el Instituto
de Cibernética, Matemática y Física (ICIMAF
– Cuba).
En el esquema, las tesis: 1, 2 y 3, son trabajos que en la actualidad
se realizan para titulaciones de Maestros en Ciencias de Computación,
las cuales se apoyan mutuamente, así como en módulos
que son el resultado del trabajo de especialistas de análisis
de señales. Las aplicaciones educacionales, en Escuelas Especiales,
se corresponden con el uso y ensamble de los diferentes módulos
obtenidos.

Figura No. 1. Nuevos desarrollos
Extracción y medición
de parámetros El intervalo de tiempo utilizado
para el procesamiento de la señal de voz, durante el cual
se extraen, grafican y calculan los valores de la mayoría
de los parámetros de la señal voz es de 20 mseg. Para
el caso de las mediciones relacionadas con el tono fundamental el
intervalo es mayor. Los parámetros con mayor información
utilizados para el análisis de la señal voz, se detallan
en la tabla No.1.
Tabla No.1. Parámetros con mayor información en la
voz.
Descripción de estos parámetros y su utilidad para
un segmento bajo análisis, donde fm = frecuencia de muestreo;
donde Si son las muestras i en el intervalo:

Donde ni es la cantidad de muestras para un período de la
señal en el segmento de análisis y å ni es la
cantidad de muestras que contiene el intervalo que ocupan los períodos
detectados de la señal en el segmento. Con este cálculo
la F1 que se obtiene, es la F1 promedio en el segmento de análisis.
Al estar limitada en banda el análisis, pues el resultado
es aceptable. Para una medición más precisa de los
componentes armónicos en cada segmento, se puede utilizar
el análisis espectral con ayuda de la Transformada Rápida
de Fourier (FFT) que es una de las opciones del sistema.

El tono fundamental (pitch) de la voz, es el parámetro más
importante a tener en cuenta en el análisis de Voz y Habla,
pues a partir de este es que se producen los sonidos que caracterizan
los segmentos sonoros en la fonación. Cualquier perturbación
en el tono fundamental, se refleja inmediatamente en la salida de
información y altera la correcta dicción.
Aislar y extraer la señal del tono fundamental es el primer
paso para aplicar cálculos de análisis de comportamiento
estadísticos y de medición de la estabilidad en esta
señal. Por otra parte, durante la articulación de
palabras, la producción del tono fundamental se ve interrumpida,
de ahí que los análisis del comportamiento del tono
fundamental se realicen para segmentos sonoros con contenido invariable,
ej. una vocal sostenida: ‘a’,’e’.
A la señal del tono fundamental aislada, se le realiza la
medición del valor de la frecuencia correspondiente a cada
ciclo durante el segmento de análisis seleccionado, obteniendo
los valores F0i correspondientes. También es posible medir
la variación de la amplitud del tono fundamental AF0i, lo
cual es útil para determinar otras características
de comportamiento de estabilidad y calidad en la producción
de Voz y Habla.
FFT: Espectro de frecuencia.
El cálculo del espectro de frecuencia se realiza para toda
la señal bajo análisis, utilizándose para ello
el algoritmo de la Transformada rápida de Fourier (FFT).
Los límites y precisión en el cálculo de la
FFT permiten ajustar sus resultados en función de la relación
del ancho de la ventana M que es una potencia de 2 y el número
de muestras N, N menor o igual a M. Si N < M las muestras N <
n < M se hacen igual a CERO. Así es posible realizar análisis
de tiempo corto o largo. Para el análisis de tiempo corto
se escoge el segmento o intervalo de tiempo N de la señal
que contiene por lo general un sólo ciclo del tono fundamental
y así se eliminan ruidos y dispersiones de los otros ciclos.
La frecuencia de muestreo, fm, y su relación con el ancho
de la ventana, determinan la precisión de respuesta, delta
f, en los resultados de la FFT.

También, para eliminar ruidos por truncamiento de la señal
en las fronteras de la ventana, se aplica alguna función
de ventana. La más utilizada es la de Hamming.
Whm(k) = 0.54 + 046 cos(2pik/M-1) k = 0,1, ... ,M-1
Jitter: Medida de la inestabilidad de la frecuencia del tono fundamental
F0.
El Jitter es una medida de la inestabilidad a corto tiempo de la
F0 durante la producción del tono fundamental. El Jitter
medio está definido como:
Shimmer: Medida de la inestabilidad de la
amplitud del tono fundamental AF0.
El Shimmer es una medida de la inestabilidad a corto tiempo de
la AF0 durante la producción del tono fundamental. El Shimmer
medio está definido como:
Otros valores estadísticos a considerar durante el análisis
del tono fundamental son calculados a partir del comportamiento
de los valores F0i, AF0i.
Clasificación de perturbaciones:
- Desviación estándar y coeficiente de variación,
son calculados para conocer la variación de F0i y la Intensidad
del tono fundamental.
- Porcentaje de variación y promedio de perturbación,
son valores estadísticos que por su importancia, se calculan
a modo de ofrecer una visión más particular de la
perturbación del tono fundamental de la señal bajo
análisis, tanto para la frecuencia como la amplitud.
Sistemas y resultados alcanzados.
4.1 Area educacional.
- Paquete de programas para la extracción y análisis
de parámetros de la voz. EXPARAM 2.0.
Este sistema fue culminado en julio del 2002 y se encuentra en
evaluación en Escuelas Especiales de la Ciudad de La Habana,
a finales del curso escolar 2002 – 2003 se recibirán
los resultados.
Como diferencia fundamental con la versión 1.2, se tiene
el soporte de programación sobre Delphi 5 (Pascal Orientado
a Objetos y presentación visual).

Otras adecuaciones son:
- Se incorporan representaciones de imágenes para cada
sonido del corpus de voces que se recibe con el sistema, de forma
tal que además de poder ver la señal acústica
de la voz y los perfiles paramétricos que se extraen de
cada sonido, el usuario puede ver el significado del sonido en
una figura.
- El usuario puede incorporar nuevos archivos de voces. Si desea
ver la representación en forma de imagen, tiene que incorporar
la misma en la carpeta correspondiente, en el formato JPG.
v Se añadieron representaciones gráficas de parámetros
de la voz como son: tono fundamental (pitch) y espectrogramas
de frecuencia.
- En las figuras No.2 y 3, se muestran representaciones
de los perfiles paramétricas de varias palabras, así
como de las imágenes para el significado de cada sonido.
Figura 2 a)
Figura 2 b)
Figuras No. 2: a) Palabra “espada”, representación
de los perfiles acústicos de intensidad, parte superior (vocales
con mayor nivel) y de frecuencias alta, parte inferior (fricativo
‘S’); b) Palabra “cesto”, representación
del perfil acústico de intensidad, parte superior y del espectrograma,
parte inferior Figura 3 a)
Figura 3 b)
Figura No. 3, palabra “mano y mono”:
a) Representación de los perfiles de intensidades de ambas
palabras; b) Representación de los perfiles del Tono Fundamental
para cada palabra.
Como se puede apreciar de las figuras 2 y 3, las
representaciones de los perfiles paramétricos acústicos,
es muy versátil. En la figura No.3 a), se
presenta en la ventana superior el efecto de comparación
de perfiles, con un contorno idéntico al del perfil inferior,
sobre la gráfica del perfil superior, este efecto es posible
verse para cualquier representación de perfiles, excepto
cuando una de las gráficas es un espectrograma (figura
No.2 b)).
Los iconos de bocinas, a la derecha de las ventanas: superior e
inferior; se utilizan para reproducir el sonido desde el inicio
de la pantalla, hasta la posición que ocupan los cursores
respectivos.
La descripción del funcionamiento del sistema está
disponible en el Manual de Usuario.
4.2 Área
médica.
Sistema para la gestión y análisis acústico
en consultas de foniatría. FONAVOZ 1.0.
Como resultado de la culminación de un trabajo de tesis
de Maestría, se dispone de una versión prototipo del
sistema FONAVOZ V.1.0 el cual integra el llenado de una base de
datos de la información personal de los pacientes atendidos,
con la situación diagnóstica que determina el especialista
médico y adiciona la recopilación de archivos de voces
in sito, para realizar análisis acústicos de la voz
del paciente.
Este sistema, en su base de datos, contiene las características
que el personal del servicio de foniatría del Instituto de
la Comunicación Humana (InCH) de la Secretaria de Salud del
D.F. de México. La grabación de los archivos de voces
y la visualización de los perfiles paramétricos acústicos,
se corresponde con la experiencia que se ha tenido en las representaciones
de los sistemas educacionales desarrollados.
Dentro de las características de representaciones, al igual
que EXPARAM 2.0, se tiene la posibilidad de observar: señal
real, parámetro de frecuencia e imagen con el significado
de la palabra dicha. Con estas representaciones el especialista
puede comparar los gráficos correspondientes a una voz normal
vs. la del paciente bajo estudio y además de diagnosticar,
proponer sesiones de entrenamiento, donde el paciente mejore su
dicción, si es el caso.
El sistema está realizado en Delphi 5.0 y la base de datos
es del tipo ADO.
Se trabaja en la recopilación de un corpus de voces de personas
con problemas de voz y habla, con el fin de realizar una investigación
de clasificación diagnóstica, utilizando la técnica
de análisis de señales en la señal de voz.
Los resultados del uso de este sistema y recomendaciones de extensión
de funcionalidades se esperan para la primera mitad del año
2003.
En la figura No.4, se pueden apreciar dos de las
pantallas que el sistema presenta.
Expediente Clínico 4 a)
Gráficas de señal y parámetros
4 b)
Figura No. 4 Presentaciones de FONAVOZ a)
Expediente clínico; b) gráficas
de señal y parámetros.
Aplicaciones en rehabilitación
y diagnóstico. Parámetros.
Una de las “habilidades” de los sistemas en aplicación
y desarrollo es la posibilidad de comparar, mediante la superposición
de gráficas, los dos perfiles acústicos que aparecen
en las ventanas de presentación. Con esta opción es
que se puede realizar el análisis cualitativo de dos sonidos
provenientes de fuentes diferentes, dos locutores o usuarios.
La superposición de las gráficas de los perfiles
paramétricos acústicos facilita a los usuarios del
sistema observar que tanto se asemejan en su composición
y pronunciación los dos sonidos de una forma objetiva. Si
además se cuenta con la posibilidad de oír los sonidos
correspondientes a cada ventana de presentación, pues se
puede establecer una asociación de la apreciación
objetiva, lo que se ve, vs. lo que se escucha.
Para trabajos de rehabilitación fonética el poseer
ambas realimentaciones, sonora y visual, ha resultado ser un factor
muy importante, pues el usuario del sistema puede detectar con mayor
precisión en que parte de la fonación está
incurriendo en una falta, omisión o producción inadecuada.
Esta posibilidad se puede observar en la figura No. 5, donde la
misma palabra ha sido pronunciada por dos personas diferentes, los
perfiles acústicos de la energía son similares, con
la diferencia que el perfil superior tiene menos definida la vocal
‘a’ terminal.

Figura No. 5. Comparación cualitativa de
dos perfiles paramétricos acústicos.
Como parte de los trabajos enfocados al diagnóstico de problemas
de Voz y Habla, se introduce el análisis cuantitativo, que
se realiza con la incorporación de dos cursores en las ventanas
de presentación. De esta forma es posible delimitar el espacio
del sonido que es necesario analizar y realizar las mediciones de
los valores reales que alcanza el parámetro en ese intervalo.
El análisis cuantitativo está limitado en su aplicación
al tono fundamental - F0 (Pitch), ya que el mismo es el responsable
de la producción del resto de los parámetros acústicos
durante la fonación y cualquier alteración en su producción
es reflejada en los que de él dependen: formantes F1, F2,
..., Fn.
Con las mediciones objetivas del comportamiento del tono fundamental
en cuanto a su frecuencia y amplitud, es posible detectar problemas
que estarían vinculados bien con acciones motoras (músculos),
de comunicación nerviosa o ambas. Entre los parámetros
a medir en este tipo de análisis tenemos: valor medio de
la frecuencia fundamental, variabilidad (jitter), amplitud del tono
fundamental, variabilidad (Shimmer); así como distribución
estadística de la variación de la frecuencia y amplitud.
Para trabajos de diagnóstico de problemas de Voz y Habla,
la medición de estos parámetros no es por si solo
suficiente, pero si son una parte muy importante para orientar el
uso de otras pruebas y mediciones del tracto faríngeo y las
cuerdas vocales, con el fin de establecer las posibles causas del
problema.
En la figura No. 6, parte superior derecha, se muestran los resultados
de la medición de las características del tono fundamental
para un segmento de voz enmarcado entre los dos cursores, para el
mismo sonido, producido por dos personas diferentes.

Figura 6 a) Cálculo parte superior

Figura 6 b) Cálculo parte inferior
Figura No. 6. Medición de características
del tono fundamental para un segmento de voz.
Cabe señalar, que tanto para las aplicaciones de rehabilitación
como para el diagnóstico de problemas de Voz y Habla, los
sistemas aquí presentados constituyen herramientas auxiliares,
cuya efectividad puede ser altamente positiva o no en dependencia
del problema bajo tratamiento o estudio. Hay problemas de rehabilitación
que requieren de tratamiento quirúrgico y luego realizar
ejercitación vocal, para lo cual estos sistemas pueden ser
muy útiles. Para el caso del diagnóstico se utilizan
otros tipos de análisis y pruebas que son fundamentales,
no es posible solamente con la medición de las características
del comportamiento del tono fundamental decidirlo todo.
Conclusiones.
Los sistemas presentados son el resultado de varios años
de trabajo en la línea de procesamiento de voz para aplicaciones
de educación y medicina. Ambos están instalados en
centros de atención y con ellos se llevan a cabo trabajos
de análisis, entrenamiento y rehabilitación de problemas
de Voz y Habla.
Los parámetros que se calculan y representan tienen el mayor
significado para los trabajos de entrenamiento, rehabilitación
y en especial para diagnóstico de problemas de Voz y Habla.
Tal es el caso del tono fundamental F0.
La comparación de perfiles paramétricos acústicos
es rápida de entender y factible de ser utilizada eficientemente
por los usuarios de los sistemas.
La aceptación de los especialistas en el área de
educación y medicina ha sido muy favorable, por ser sistemas
fáciles de manipular y ofrecerse a bajo costo. Ya se encuentran
en proceso de redacción manuales orientados a la Educación
Especial, para diferentes niveles de escolaridad.
Bibliografía
- Sistema para la Extracción y Análisis de parámetros
de la voz EXPARAM V.2.0. 2000-2002. Manual de Usuario. CENDA,
ICIMAF, Ciudad de la Habana, Cuba. ISBN 959-7056-17-8.
- Sistema para la gestión y análisis acústico
en consultas de Foniatría (FONAVOZ), Tesis de Maestría
en Ciencias de la Computación, CIC – IPN, México
D.F. Diciembre de 2002. Lic. Liseth García Robles.
- Workshop on Acoustic Voice Analysis. Ingo R. Titze, Ph.D. 17
– 18 of february, 1994, Denver Colorado, National Center
for Voice and Speech. Summary Statement.
Referencias
4.
http://www.sqlab.com/scParamAcoustFR.htm
5 . http://www.sqlab.com/scEggFR.htm
|