Agrupamiento de la predicción de la señal de voz en una tarea de reconocimiento automático de fonemas

Citation
Share
Date
Abstract
En este trabajo se presenta el diseño de un sistema para reconocimiento de fonemas usando la agrupación de señales de voz. El reconocimiento del fonema se realiza en dos etapas. Una primera etapa de predicción de series de tiempo basada en grupos de redes neuro-señales especializados en realizaciones acústicas del fonema, cada uno de los cuales arroja un residuo o error total, mismo que alimenta a una segunda etapa de clasificación; esta segunda etapa es la que indica a que fonema pertenece la señal de entrada. Las realizaciones acústicas se determinan automáticamente en base del agrupamiento de los errores totales obtenidos de las señales usadas en entrenamiento. Se hicieron pruebas con 4 y 5 fonemas vocálicos obtenidos de la base de datos de habla TIMIT. Para el entrenamiento ´ de las redes neuronales se usó el simulador SNNS. Los resultados indican que el uso de grupos de redes neuronales especializados en contextos de fonemas mejora el reconocimiento de un fonema en comparación con un sistema de predicción de series de tiempo de una red neuronal única por fonema.