Un vídeo muestra a una mujer metiendo una caja en un edificio. Más tarde, muestra a la mujer saliendo del edificio sin caja. ¿Qué estaba haciendo?

El programa Mind's Eye automatizará el análisis de vídeo -reconocerá el comportamiento actual, interpolará acciones que puedan ocurrir fuera de cámara, y hará predicciones sobre el comportamiento inmediato futuro. (Crédito: Carnegie Mellon University)

El programa Mind’s Eye automatizará el análisis de vídeo -reconocerá el comportamiento actual, interpolará acciones que puedan ocurrir fuera de cámara, y hará predicciones sobre el comportamiento inmediato futuro. (Crédito: Carnegie Mellon University)

El programa Mind’s Eye, de la Universidad Carnegie Mellon (CMU), está creando un software inteligente que reconocerá las actividades humanas en vídeo y podrá predecir lo que ocurrirá seguidamente. Este software incluso emitirá una alerta ante eventos poco usuales y deducirá las actividades realizadas fuera de la cámara.

La automatización del trabajo de vigilancia, ver e interpretar vídeos, acelerará la recolección de información, mejorará la vigilancia y proporcionará nuevas herramientas de investigación. Sistemas autónomos podrían utilizar esta tecnología en aplicaciones en un rango muy amplio de actividades, desde actividades de defensa, control médico y robótica.

El reconocimiento y predicción de la actividad humana en vídeo es una tarea difícil. Las personas no ejecutan la misma acción de la misma manera. Acciones distintas puede parecer muy similares en un vídeo. Y los vídeos que contienen la misma acción pueden variar grandemente en apariencia debido a la iluminación, perspectiva, fondo, individuos involucrados, entre otros.

Para minimizar los efectos de estas variaciones, el software Mind’s Eye generará modelos 3D de las actividades humanas y comparará esos modelos con los movimientos de la persona en el vídeo. Comparará el movimiento en el vídeo con otras acciones, con las que ha sido entrenado previamente para reconocer (por ejemplo, caminar, saltar, pararse) , e identificará patrones de acciones (como llevar o levantar). El software examina estos patrones para inferir lo que la persona en el vídeo está haciendo. Incluso, hará predicciones sobre lo que sucederá en el futuro inmediato producto de estas acciones y también inferirá lo que ha sucedido fuera de la cámara.

El de la Carnegie Mellon es uno de los doce equipos de investigación y tres integradores comerciales que participan en el programa de cinco años, apoyado por la Oficina de Innovación de la Información, de DARPA. El proyecto inicio en septiembre del 2010 y está actualmente en las primeras etapas del desarrollo de software.

Más información aquí.