Algoritmo para clasificación de emociones basado en la voz

Prototipo MATLAB intersage gráfica para entrada de voz y la emoción que genera en la salida en coordenadas de excitación de valencia (crédito: University of Rochester)

Prototipo MATLAB intersage gráfica para entrada de voz y la emoción que genera en la salida en coordenadas de excitación de valencia (crédito: University of Rochester)

Ingenieros de la Universidad de Rochester han desarrollado un programa de computación que mide el sentimiento humano por medio del análisis de 12 características de la voz, tales como tono y volumen, para identificar una de seis emociones grabadas con 81 por ciento de exactitud.

El programa ha sido utilizado para crear un prototipo de una aplicación que muestre ya sea una cara feliz o una triste después de grabar y analizar la voz del usuario. Este programa fue desarrollado por Na Yang, estudiante graduado, durante un verano interno en Microsoft Research.

“La investigación se encuentra aún en sus primeros pasos”, dijo Wendi Heinzelman, profesora de ingeniería eléctrica y computación, “pero es fácil prever una aplicación más compleja que pueda utilizar esta tecnología para mostrar colores en tu celular o hacer sonar música de acuerdo a tu estado de ánimo”.

Melissa Sturge-Apple, investigadora de Rochester, quien utiliza el programa en análisis de comunicación entre padres-adolescentes, explicó que las emociones modifican la manera en que las personas alteran el volumen, tono, e incluso los armónicos de su voz.

Los investigadores establecieron 12 características específicas en el habla que son medidas en cada grabación a intervalos cortos. Luego, categorizaron cada una de las grabaciones y las usaron para enseñarle al programa de computación como suena estar triste, feliz, temeroso, disgustado, o neutral.

Luego, el sistema analiza nuevas grabaciones y trata de determinar si la voz es similar a los ejemplos conocidos de emociones. Si el programa de computación no puede decidir entre una o más emociones, deja la grabación como no clasificada.

La investigación realizada con anterioridad mostró que los sistemas de clasificación de emociones son altamente dependiente de quien habla; estos sistemas funcionan mucho mejor si el sistema en es entrenado por la misma voz que analizará. Los nuevos resultados confirman este método.  Si el programa de clasificación de emociones es utilizado en una voz distinta de quien la ha entrenado, la exactitud caerá de 81 por ciento al 30 por ciento.

Los investigadores se centran ahora en la forma de minimizar este efecto, por ejemplo, por medio del entrenamiento del sistema con una voz en el mismo grupo de edad y del mismo género. “Aún existen retos a superar si deseamos utilizar este sistema en un ambiente de la vida real, pero sabemos que el algoritmo desarrollado es más efectivo que los anteriores”, dijo Heinzelman.

Más información aquí.