Cursos

← vista completa

Redes neuronales en el diagnóstico de la patología vocal

Neural networks in the diagnosis of vocal pathology

Resumen

Este texto completo es la transcripción editada y revisada de una conferencia dictada en el Curso Internacional de Cirugía de la Voz y Cirugía Endoscópica Sinusal Avanzada, organizado en Santiago por el Hospital Clínico de la Fuerza Aérea de Chile desde el 2 al 4 de abril de 2001.
Presidente: Dr. Sergio Lillo D. Coordinador: Dr. Gonzalo González Z.

Me voy a referir a tópicos que son candentes hoy en día, no en el nivel clínico de la investigación laringológica, pero sí a nivel de investigación básica de procedimientos y metodologías.

Presentaré el resultado de dos trabajos realizados en la Universidad de Henares, en cooperación con las Escuelas Superiores de Ingenieros de Telecomunicaciones e Informática de la Universidad Politécnica de Madrid.

Actualmente, el análisis acústico consiste en la medición de múltiples parámetros cuya normalidad no está suficientemente probada, ya que los valores de normalidad no son suficientemente fiables, porque no existen bases de datos fiables, ni desde el punto de vista estadístico ni del epidemiológico. La base de datos que manejamos no está aún en español. Estamos trabajando en ello. La base actualmente disponible, de Key Elemetrics, es una base de datos hecha con no más de 50 registros de voces normales, sin distribución por sexo ni edad. Intentar clasificar a un paciente como normal o patológico, a base de esta casuística, no es científico ni correcto. La información que se está generando con todos estos parámetros es muy abundante y heterogénea, y está generando cierta incertidumbre al decidir qué utilizar para las mediciones. Todo el mundo está intentando buscar una normalización de los parámetros y una estandarización de las exploraciones. Se ha intentado en varias ocasiones y todavía no se ha conseguido. Esta información tan abundante y heterogénea se está procesando con los computadores tradicionales, que tienen una forma de procesamiento de la información distinta de la que utiliza el cerebro humano. Es una forma de procesamiento conocida como algorítmica, es decir, es secuencial. El computador no pasa a resolver otro problema mientras no resuelva aquel en el que está ocupado. No es capaz de ir resolviendo más de un problema a la vez.

Este procesamiento de la información con el computador tradicional ha mostrado ya su ineficacia para el análisis acústico. La información que genera puede estar bien cuando se trata de mostrársela al enfermo o a un juez, pero muchas veces no refleja la realidad, porque estos algoritmos están diseñados para voces normales y no para voces patológicas. Todos descansan en el cálculo de la frecuencia fundamental y en una voz muy regular, carente de periodicidad, no se puede calcular la frecuencia fundamental, por lo cual no tiene sentido.

El procesamiento de la información en los seres vivos es diferente y no tiene nada que ver con el modo secuencial de procesamiento del computador tradicional.

Si se comparan las características del procesamiento de la información de un computador frente al cerebro humano o, a la inversa, del cerebro humano frente al computador, hay similitudes y diferencias. En primer lugar, la velocidad del procesamiento de información del cerebro humano es muy baja comparada con la de un computador. Cien herzios en el cerebro humano y del orden de 100 megaherzios o más, con los modelos actuales, en el computador. Esta dificultad en el cerebro humano se solventa con un modo de procesamiento de la información en paralelo. No necesita terminar un problema para comenzar otro, está resolviendo miles de problemas a la vez. Así, uno ve y está decodificando lo que ve, mientras está escuchando y pensando en lo que se va a decir. Todo esto se hace en paralelo, sin dejar de hacer una cosa para hacer otra. Así funciona el cerebro.

El cerebro tiene un número enorme de procesadores elementales que son las neuronas, mientras que el computador tiene un microprocesador único. Estas neuronas están ampliamente interconectadas entre sí; en cambio, las conexiones en un computador son pocas. El almacenamiento de la información en el computador se hace de una forma direccionada y fija. El computador sitúa una información en la memoria y tiene que ir a localizarla cada vez a ese mismo sitio; el almacenamiento del conocimiento por parte del cerebro radica en el estado de activación de las sinapsis. Hay varias teorías de la memoria, pero la que interesa resaltar aquí es que el conocimiento está organizado de forma distribuida en el estado de activación de las distintas sinapsis del cerebro. El cerebro, además, tiene una alta tolerancia a las fallas. Una persona puede tener un ictus y no deja de funcionar completamente. Incluso, puede dejar de funcionar transitoriamente para luego recuperarse. Un computador, en cambio, se funde y ya no vuelve a funcionar mientras no sea reparado. El control del proceso es de tipo autoorganizado en el cerebro humano, en el computador está centralizado.

Definición de red neuronal
Es una nueva forma de computación, que está basado en modelos de inspiración biológica. Trata de imitar la arquitectura del cerebro humano, para intentar reproducir sus capacidades. Un finlandés, Kohoney , ha dado un gran impulso al tema de las redes neuronales y las define como redes interconectadas masivamente, en paralelo, que intentan reproducir el funcionamiento del sistema biológico del cerebro. La red neuronal tiene ventajas frente a los procesadores tradicionales porque:

  • tiene un aprendizaje adaptativo que le permite aprender mediante los ejemplos que se le suministran;
  • se autoorganiza, no hay que decirle lo que tiene que hacer:
  • tiene una amplia tolerancia a las fallas;
  • se puede incorporar a la tecnología existente en el sistema actual y calcula en tiempo real. El modo de procesamiento de la información en paralelo permite ir funcionando en tiempo real. Aprovechando el hardware de los procesadores tradicionales, que tienen una gran potencia de cálculo y generando software y hardware que puedan incorporarse a la tecnología existente, se puede lograr que ésta funcione en tiempo real.

Utilidad de las redes neuronales
Las redes neuronales pueden aportar al estudio de la voz, en cuanto a las voces patológicas, porque ya se ha demostrado su eficacia en el reconocimiento de patrones en otras situaciones. Se han utilizado en segmentación y clasificación de imágenes, en el reconocimiento óptico de caracteres escritos, en el reconocimiento del habla. También, como algo curioso que permite comprender su utilidad en nuestro campo, se han utilizado en procesos de restauración de películas antiguas que tenían mucho ruido. Es lo que sucede en la voz patológica: hay mucho ruido. Por lo tanto, es necesario recomponer la imagen inicial, tratando de extraer los parámetros básicos o las características que permitan determinar si es una cosa u otra, eliminando los ruidos. También se han utilizado en la interpretación de los ECG y EEG. Todos los últimos avances en estos dos métodos se deben a su aplicación. En el estudio de la voz se ha introducido más tarde, con la interpretación de los oscilogramas.

Objetivos de la investigación
El objetivo de los trabajos a los que me estoy refiriendo fue diseñar una red neuronal que permitiera distinguir entre lo normal y patológico, y, posteriormente, en una segunda etapa, intentar hacer diagnóstico de determinadas patologías características. Esto se enmarca dentro del proyecto Hispavox, coordinado entre varias universidades de España, el que trata de generar una base de datos. Esta lleva ya alrededor de 200 registros de voces de hombres y mujeres, clasificados por grupos de edad. Esto aún es insuficiente, porque los ingenieros indican que este número es sólo para empezar. Sólo serviría para realizar trabajos experimentales, pero no para sentar las bases de un diagnóstico automático de la patología vocal. Si con 200 aún es insuficiente para definir normalidad, obviamente con menos de 50, los datos son simplemente inútiles.

Los pasos que se han seguido son, en primer lugar, un estudio de los diferentes tipos de red, la selección de la base de datos para trabajar y la simulación de una red mediante software, ya que el modo de redes neuronales se puede simular con un software en un computador tradicional, o hacer, realmente, un procesamiento en paralelo con hardware. Se han seleccionado los parámetros de aprendizaje, para que la red vaya adquiriendo conocimientos.

Las redes neuronales se pueden clasificar conforme a distintas características:

  • conforme a la topología y arquitectura, que consiste en el número de capas de la red que se va a diseñar, el número de elementos por capa, el tipo de conexiones, etc.;
  • el proceso de aprendizaje, que puede ser supervisado o no supervisado;
  • el tipo de asociaciones de entrada y el tipo de presentación de los datos, es decir, cómo adquiere y presenta los datos la red.

En cuanto a la topología, está dada por el número de capas y el número de elementos, o neuronas, por capa, y el grado de conectividad, ya que es importante saber si las sinapsis son únicas o hay más de un tipo de conexión, y con más de una neurona. Además el tipo de conexión de esas neuronas entre sí.

Normalmente, suele haber una capa de entrada, luego una o varias capas ocultas y una capa de salida. Todas estas neuronas se pueden conectar entre sí, todas con todas o sólo entre algunas. De alguna manera, la conexión entre una neurona y otra está influenciada por lo que se denomina el peso o factor de eficiencia sináptica. La modificación de los pesos, según se va capacitando la red, es lo que permite la adquisición de conocimientos por parte de ésta. Una neurona se relaciona con otra a base de este peso o factor de eficiencia sináptica.

El proceso de aprendizaje es el proceso de modificación de los pesos conforme se va ingresando información a la red. Hay dos tipos de proceso de aprendizaje: el aprendizaje supervisado y el no supervisado.

En cuanto al tipo de asociación de los datos, las redes se pueden dividir en heteroasociativas y autoasociativas.

En las redes heteroasociativas, cada información de entrada lleva a una información de salida; en las redes autoasociativas, frente a cada dato de entrada, la red trata de buscar, en lo que ya tiene almacenado, lo que se le parezca.

En cuanto a tipo de representación, pueden ser redes continuas, en que los datos son de naturaleza continua; redes discretas, con datos discretos; y redes híbridas, en que las entradas son analógicas o continuas y las salidas son binarias.

En cuanto a los sistemas utilizados en el trabajo, elegimos como tipo de red neuronal, entre los muchos existentes, el llamado Perceptron Multicapa con Algoritmo de Aprendizaje de Retropropagación del Error (Multilayer Perceptor and Back Propagation Algorythm). Es un tipo de aprendizaje supervisado, que, además, necesita la desconexión de la red para modificar los pesos. La modificación de los pesos no se hace en tiempo real, se debe detener el computador. El tipo de asociación de los datos es heteroasociativa, es decir, que a cada dato de entrada corresponde uno de salida; no busca uno que ya tiene almacenado. La función es logarítmica sigmoidea, porque sabemos que con este tipo de funciones y con una red de tipo multicapa podemos aproximar la solución de cualquier problema no lineal.

Los métodos tradicionales suponen la linealidad del sistema de fonación de las cuerdas vocales, cuando eso no es así. El modo de procesamiento que usábamos era el computador, que es secuencial. Si suponemos la no linealidad, que es la realidad del fenómeno natural de la vibración de las cuerdas vocales, tenemos que suponer que debemos procesar de una forma que pueda dar soluciones a problemas no lineales. Las salidas de la red para el primer estudio eran voz patológica y voz normal

Proceso de aprendizaje de la red
Se establecen los pesos de cada sinapsis para cada patrón, es decir, grabación de voz que se le presenta y se ejecuta la red. Se produce una modificación del peso de la conexión sináptica, porque la red va funcionando como el cerebro. Hay conexiones que se van facilitando y algunas que dejan de realizarse. Hay que calcular las señales de error asociadas a esta ejecución y, posteriormente, hacer el cálculo del incremento global de los pesos de la red, y modificar los pesos y los umbrales. Se actualizan los pesos y se vuelve a realizar el proceso, es decir es un proceso de interacción continua.

El número de interacciones de la red, también llamadas épocas en la jerga técnica, se puede elevar o no. Hay que buscar un equilibrio de estos dos procesos: el proceso de generalización y el de memorización. Si se capacita mucho la red, se elimina la generalización, que es la capacidad de acertar cuando le presentamos un patrón distinto de los utilizados para la capacitación. Si capacitamos muchas veces con los mismos patrones, la red aprende a distinguir cada uno de ellos y no distingue ninguno que sea parecido, sino que debe ser el mismo. Este es el fenómeno de memorización, que impide que la red acierte de nuevo cuando se le presenta un patrón distinto del que se ha presentado durante la fase de aprendizaje Este equilibrio se debe buscar porque interesa que no haya ni falsos negativos ni falsos positivos. Llega un momento en que el error de aprendizaje es mínimo, pero si se le sigue enseñando, cuando se le presenta un nuevo patrón, el error de la prueba aumenta.

En cuanto a materiales y método, utilizamos un computador corriente, de la época en que se realizó el trabajo. El programa simula la red, con una caja de herramientas para redes neuronales, una hoja de cálculo Excel y la única base de datos disponible en ese momento (Key Elemetrics). Es una base de datos de 53 registros normales. Para el primer estudio se usaron 336 registros de diferentes patologías y 72 en el segundo estudio. Se seleccionaron algunas patologías, para ver si acertaba el diagnóstico. El soporte de la base de datos era en CD, con grabaciones digitales realizadas en el Massachusetts Ear and Eye Infirmary

Utilizamos inicialmente los 27 parámetros del Multidimensional Voice Program (MDVP), pero se fue disminuyendo el número de elementos e intentamos buscar la mínima configuración de la red que presentara el mejor resultado. El número de parámetros de entrada se fue reduciendo. Así, luego observamos que se obtenían los mismos resultados ingresando sólo uno o dos de los parámetros.

El algoritmo que utilizamos fue el de Ravinet, agregando una cierta mejoría con una información temporal, mediante la primera y segunda derivada temporal. Obtuvimos un vector de tres componentes, lo que permitiría que la red aprendiera.

En cuanto al método, realizamos un gran número de interacciones y buscamos el momento en que la red ya empezaba a memorizar, sin que se llegara a degradar la generalización de la red. Se buscó una cuota de error cuadrático medio para buscar el acierto de la red. La red empieza a funcionar y va buscando mínimos de error que son locales, hasta que cae en un mínimo global. Entonces la red detiene la ejecución.

Los resultados obtenidos fueron una buena generalización de la red para el diagnóstico de lo normal y lo patológico, incluso con muy pocos parámetros. Al final del estudio se entraba sólo con el jitter, y acertaba entre normal y patológico en 97% de los casos. Con los coeficientes de frecuencia, el resultado fue de 100% de aciertos entre normal y patológico. Sin embargo, había una mala generalización, con imposibilidad de convergencia, en cuanto a la clasificación de las distintas patologías. Nos dimos cuenta, porque hay cierto engaño en la base de datos de Key Elemetrics, ya que los mismos registros tienen diagnósticos diferentes. Si se le está presentando información contradictoria, la red nunca va a aprender.

Conclusiones
Creemos que el futuro del diagnóstico de la patología vocal está en las redes neuronales. Es probable que se utilicen distintas aproximaciones. En general, lo que se podría hacer, como trabajo futuro, es el diagnóstico automático con una red como la utilizada en nuestro estudio, tipo perceptrón multicapa con algoritmo de retropropagación del error. Podría combinarse con los coeficientes de frecuencia.

El tamaño de la red podría disminuir si se utiliza otro tipo, las llamadas redes autoorganizadas o mapas de Kohoney (Self-Organizing Feature Maps). Este es el trabajo a futuro, buscar nuevas combinaciones de parámetros que puedan ofrecer mejores resultados.