Deb Roy dirige el grupo Cognitive Machines en el MIT Media Lab, dedicado al estudio de cómo aprenden los niños a hablar, y diseña máquinas que aprendan a comunicarse de la misma manera que los humanos lo hacemos. Es pionero en nuevos métodos orientados al análisis y modelado del comportamiento social y lingüístico de los humanos. Autor de numerosos artículos sobre inteligencia artificial, modelaje de conocimiento, interacción humano-máquina, datamining y visualización de información.

Imaginen que pudieran registrar sus vidas… todo lo que dijeron, todo que hicieron, al alcance de la mano en una mediateca perfecta para poder volver a buscar momentos memorables y revivirlos o examinar trazas de tiempo y descubrir patrones en sus propias vidas que antes pasaron inadvertidos. Bien, ese es exactamente el viaje que emprendió mi familia hace 5 años y medio. Esta es Rupal, mi esposa y colaboradora. Y en este día, en este momento, entramos en la casa con nuestro primer hijo, nuestro hermoso bebé. Y entramos en una casa con un sistema de grabación de video muy especial.

(Video) Hombre: Muy bien.

Deb Roy: Este momento, y miles de otros momentos especiales para nosotros, fueron capturados en casa porque en todas las habitaciones de la casa, si levantaran la vista verían una cámara y un micrófono, y si miraran hacia abajo, tendrían esta vista de pájaro de la habitación. Esta es la sala de estar, la habitación del bebé, la cocina, el comedor y el resto de la casa. Y todo esto alimenta un conjunto de discos diseñados para una captura continua. Aquí sobrevolamos un día en nuestra casa desde el sol de la mañana hasta un crepúsculo incandescente y, al final, el día termina sin luces. En el transcurso de 3 años, registramos de 8 a 10 horas por día, acumulando un cuarto de millón de horas de audio y video multi-pista.

Así que están viendo un fragmento de lo que es, por lejos, la colección de video hogareño jamás realizada. (Risas) Y lo que estos datos representan para nuestra familia a nivel personal, el impacto ya es inmenso, y aún estamos aprendiendo su valor. Innumerables momentos de acontecimientos naturales, espontáneos, quedaron capturados y estamos empezando a aprender a descubrirlos y encontrarlos.

Pero hay además una razón científica que motivó el proyecto que fue usar estos datos naturales longitudinales para entender el proceso de aprendizaje del lenguaje en niños, siendo el niño mi hijo. Así, tomando muchos recaudos de privacidad para proteger a todos los involucrados en los datos disponibilizamos los datos a mi equipo de investigación de confianza del MIT para comenzar a desentrañar los patrones en este enorme conjunto de datos, tratando de comprender la influencia de los entornos sociales en la adquisición del lenguaje. Aquí estamos viendo una de las primeras cosas que empezamos a hacer. Aquí estamos con mi esposa preparando el desayuno en la cocina. Y a medida que nos movemos en espacio y tiempo, un patrón cotidiano de la vida en la cocina.

Para convertir estas 9.000 horas de video opaco en algo que pudiéramos empezar a ver; usamos análisis de movimiento para extraer, a medida que nos movíamos en espacio y tiempo, lo que llamamos «gusanos espacio-temporales». Y esto se volvió parte de las herramientas para poder mirar y descifrar donde las actividades están en los datos, y con eso, en particular, trazar un patrón de movimiento de mi hijo por la casa para poder centrar nuestros esfuerzos de transcripción en los diálogos ocurridos a su alrededor… en todas las palabras que él oía de mí, de mi esposa, de la niñera, y, con el tiempo, las palabras que empezó a decir. Con esa tecnología, con esos datos, y la posibilidad, gracias a la máquina, de transcribir el habla, hemos transcripto más de 7 millones de palabras de conversaciones domésticas. Y dicho esto les voy a mostrar un primer recorrido por los datos.

Estoy seguro que todos han visto videos acelerados en los que florece una flor en tiempo acelerado. Ahora me gustaría que experimenten el florecimiento de una forma hablada. Mi hijo, poco después de su primer año, diría “gaga” queriendo decir agua. Y en el transcurso del siguiente medio año lentamente empezó a aproximarse a la forma adulta correcta “agua”. Así que vamos a recorrer medio año en unos 40 segundos. Aquí no hay video para que puedan centrarse en el sonido, en la acústica, de un nuevo tipo de trayectoria: de “gaga” a “water” [agua].

(Audio) Bebé: Gagagagagaga Gaga gaga gaga guga guga guga wada gaga gaga guga gaga wader guga guga water water water water water water water water water.

DR: Dio en la tecla, ¿no?

(Aplausos)

Y no sólo aprendió a decir “water” [agua]. En el transcurso de 24 meses, los primeros 2 años en los que nos centramos, este es un mapa de todas las palabras que aprendió en orden cronológico. Y dado que tenemos transcripciones completas identificamos cada una de las 503 palabras que aprendió a decir antes de sus 2 años. Fue un conversador precoz. Y empezamos a analizar el porqué. ¿Por qué nacieron algunas palabras antes que otras? Este es uno de los primeros resultados que surgió de nuestro estudio hace poco más de un año que realmente nos sorprendió. La manera de interpretar este gráfico de apariencia simple es ver en la vertical una indicación de la complejidad de la expresión de los adultos cercanos en base a la longitud de las palabras. Y el eje horizontal es el tiempo.

Y los datos fueron alineados en función de la siguiente idea: cada vez que mi hijo pronunciaba una palabra rastrearíamos hacia atrás todo el lenguaje que escuchó que contuviese esa palabra. Y graficaríamos la longitud relativa de las palabras. Y observamos este fenómeno curioso: el discurso de los adultos se reducía sistemáticamente al mínimo, haciendo el lenguaje lo más sencillo posible, y luego lentamente retomaba su complejidad inicial. Y lo sorprendente fue que ese rebote, esa reducción, se alineaba casi exactamente con el surgimiento de cada palabra; palabra tras palabra, sistemáticamente. Parece que los 3 adultos a cargo -mi esposa, la niñera y yo- creo que sistemática y subconscientemente fuimos reestructurando nuestro lenguaje para acercarlo al nacimiento de una palabra y llevarlo dulcemente hacia un lenguaje más complejo. Y la consecuencia de esto -hay muchas, pero hay una que quiero señalar- es que debe haber asombrosos ciclos de respuesta. Claro, mi hijo está aprendiendo de su entorno lingüístico pero el entorno está aprendiendo de él. Ese entorno, la gente, está en estos apretados ciclos de respuesta creando una suerte de andamiaje que no se había observado hasta ahora.

Pero eso es observar el contexto hablado. ¿Qué pasa con el contexto visual? No estamos mirando… hagan un corte de casa de muñecas de nuestra casa. Hemos tomado las cámaras de ojo de pez y les aplicamos una corrección óptica, para luego transformarlo en un modelo tridimensional. Así que bienvenidos a casa. Este es un momento capturado a través de múltiples cámaras. Hicimos esto para crear una máquina de memoria definitiva en la que se pueda volver atrás y, de manera interactiva, insuflar el hálito del video en el sistema. Lo que voy a hacer es mostrarles 30 minutos en video acelerado, de nuevo, de la vida en la sala de estar. Allí estamos mi hijo y yo en el piso. Y mediante análisis de vídeo se sigue nuestros movimientos. Mi hijo deja una tinta roja, yo dejo tinta verde. Ahora estamos en el sofá mirando por la ventana a los coches que pasaban. Y, finalmente, mi hijo caminando por sí mismo con un juguete.

Ahora congelamos la acción, 30 minutos, giramos el tiempo hacia el eje vertical y abrimos una vista de estas trazas de interacción que hemos dejado atrás. Y vemos estas estructuras asombrosas: a estos hilos de puntitos de 2 colores los llamamos «zonas sociales». Al hilo en espiral lo llamamos «zona en solitario». Y pensamos que éstas afectan la manera de aprender el lenguaje. Lo que queremos hacer es empezar a entender la interacción entre estos patrones y el lenguaje al que está expuesto mi hijo para ver si podemos predecir la manera en que la estructura de palabras escuchadas afecta a las palabras aprendidas o, en otras palabras, la relación entre las palabras y su lugar en el mundo.

Esta es la manera en que lo estamos abordando. En este video, de nuevo, se hace una seguimiento de mi hijo. Está dejando tinta roja a su paso. Y la niñera está junto a la puerta.

(Video) Niñera: ¿Quieres agua? (Bebé: Aaaa) Niñera: Muy bien. (Bebé: Aaaa)

DR: Ella le ofrece agua y allá van los 2 gusanos [espacio-temporales, NT] a la cocina en busca de agua. Usamos la palabra “agua” para etiquetar el momento, esa actividad. Y tenemos el poder de los datos para ver cada vez que mi hijo escuchó la palabra “agua” y el contexto en el que la vio y usamos eso para penetrar el video y encontrar cada traza de actividad que sucedió en simultáneo con una ocurrencia de “agua”. Y lo que estos datos dejan a su paso es un paisaje. Los llamamos «paisajes expresivos». [wordscapes, NT] Este es el paisaje expresivo para la palabra “agua” y pueden ver que gran parte de la acción se da en la cocina. Es donde están esos grandes picos allí a la izquierda. Y para contrastar, podemos hacerlo con cualquier palabra. Podemos tomar la palabra “adiós”. Y ahora enfocamos la entrada de la casa. Miramos, y encontramos, como es de esperar, un contraste en el paisaje en el que la palabra “adiós” ocurre de manera mucho más estructurada. Estamos usando estas estructuras para empezar a predecir el orden de adquisición del lenguaje y ese es un trabajo en curso.

En mi laboratorio, que estamos viendo ahora, en el MIT esto es en el Media Lab. Esta se ha vuelto mi manera favorita de videografiar casi cualquier espacio. Aquí, 3 de las personas clave en este proyecto: Philip DeCamp, Rony Kubat y Brandon Roy. Philip ha sido un estrecho colaborador en las visualizaciones que están viendo. Y Michael Fleischman era otro estudiante de posgrado de mi laboratorio que trabajó conmigo en este análisis de video doméstico e hizo la siguiente observación: “la manera en que estamos analizando cómo se conecta el lenguaje a los eventos que proporciona un punto común para el lenguaje, podemos sacar esa misma idea de tu casa, Deb, y aplicarla al mundo de los medios públicos”. Y así nuestro esfuerzo dio un giro inesperado.

Piensen en los medios proporcionado un punto común y tendrán la receta para llevar esta idea a un lugar completamente nuevo. Empezamos a analizar el contenido televisivo usando los mismos principios -analizando la estructura de eventos de la señal de TV- episodios de programas, publicidad, todos los componentes que constituyen la estructura de eventos. Y ahora, con antenas parabólicas, tomamos y analizamos buena parte de la TV que se mira en Estados Unidos. Y ya no hay que ir a poner micrófonos en la sala de estar para conseguir conversaciones de la gente; sólo hay que sintonizar los medios sociales de dominio público.

Por eso estamos tomando unos 3 millones de comentarios al mes. Y luego se produce la magia. Tenemos la estructura de eventos, el punto en común del significado de las palabras que salen las señales de TV; tenemos las conversaciones sobre esos temas; y mediante análisis semántico -y están viendo datos reales de nuestro procesamiento- cada línea amarilla muestra un nexo entre un comentario al aire y un elemento de la estructura de eventos que sale de la señal de TV. Y hora se puede construir la misma idea. Obtenemos este «paisaje expresivo» sólo que ahora las palabras no se ensamblan en mi sala de estar. En vez de eso, el contexto, las actividades de un punto común, son el contenido televisivo que guía las conversaciones. Y lo que vemos aquí, estos rascacielos, son comentarios en relación al contenido televisivo. El mismo concepto pero mirando la dinámica comunicacional en un ámbito muy diferente.

Fundamentalmente en vez de, por ejemplo, medir el contenido en función de la cantidad de personas que miran, esto nos da los datos básicos para observar la atracción del contenido. Y así como podemos mirar ciclos de respuesta y dinámicas en una familia ahora podemos abrir los mismos conceptos y mirar grupos de personas muchos más grandes. Este es un subconjunto de datos de nuestra base -sólo 50 000 de varios millones- y el grafo social que los conecta mediante fuentes de dominio público. Y si los ponemos a todos en un plano, un segundo plano es donde vive el contenido. Tenemos los programas, los eventos deportivos, las publicidades y todas las estructuras que los unen conforman el grafo de contenido. Y luego tenemos la tercera, importante, dimensión. Cada enlace que ven graficado aquí es una conexión real entre algo que alguien dijo y un contenido. Y hay, de nuevo, decenas de millones de estos enlaces que nos dan el tejido conectivo de los grafos sociales y cómo se relacionan con el contenido. Y ahora podemos empezar a probar la estructura de maneras interesantes.

Si, por ejemplo, trazamos el camino de un contenido que lleva a alguien a comentarlo y luego seguimos a dónde va ese comentario y después miramos todo el grafo social que se activa y después volvemos para ver la relación entre ese grafo social y el contenido se revela una estructura muy interesante. Lo llamamos «círculo de co-expectación» una sala de estar virtual, si se quiere. Y hay una dinámica fascinante en juego. No es unidireccional. Un contenido o un evento hacen que alguien hable de eso. Ellos hablan con otras personas. Eso produce más encendido en los medios de comunicación y se obtienen estos ciclos que guían el comportamiento general.

Otro ejemplo, muy diferente, otra persona real de nuestra base de datos, y estamos encontrando al menos cientos, si no miles de ellos. A esta persona le hemos dado un nombre. Es un crítico de medios pro-amateur, o pro-am, que tiene esta alta tasa de exposición. Entonces, muchas personas siguen a esta persona – muy influyente- y tienen una propensión a hablar de lo que pasa en la TV. Esta persona es un vínculo clave para conectar a los medios de comunicación con los medios sociales.

Un último ejemplo de estos datos: a veces lo especial es el contenido. Si vemos este contenido es el discurso del presidente Obama sobre el Estado de la Unión de hace apenas unas semanas y miramos lo que encontramos en estos mismos datos, en la misma escala, la atracción de este contenido es verdaderamente notable. Una nación explota de conversación en tiempo real en respuesta a lo que se está emitiendo. Y, por supuesto, en todas estas líneas fluye lenguaje no estructurado. Podemos radiografiar y obtener el pulso de una nación en tiempo real, sentido en tiempo real, de las reacciones sociales en los diferentes circuitos del grafo social que se activan por los contenidos.

Así, para resumir, la idea es ésta: a medida que nuestro mundo se vuelve cada vez más instrumentado y tenemos la capacidad para reunir y conectar los puntos entre lo que dicen las personas y el contexto en el que lo están diciendo, está surgiendo una capacidad para ver nuevas estructuras y dinámicas sociales que antes no se veían. Es como construir un microscopio o un telescopio y revelar nuevas estructuras sobre nuestro comportamiento en torno a la comunicación. Y pienso que las consecuencias aquí son profundas ya sea para la ciencia, para el comercio, para el gobierno, o quizá, sobre todo, para nosotros como individuos.

Y para volver al tema de mi hijo cuando estaba preparando esta charla, él miraba por encima de mi hombro, y le mostré los videos que iba a presentar hoy, le pedí permiso; me lo concedió. Y luego seguí reflexionando: “No es asombrosa toda esta base de datos, estas grabaciones, que les voy a dejar a ti y a tu hermana” -que llegó 2 años después- “Uds van a poder volver atrás y experimentar momentos que con sus memorias biológicas jamás hubieran podido de la forma en que lo hacen ahora”. Se quedó callado un momento. Y pensé: “¿Qué estoy pensando? Tiene 5 años. No va a entender esto”. Y mientras pensaba eso él me miró y dijo: “Así que cuando crezca, ¿puedo mostrarle esto a mis hijos?” Y pensé: “¡esto es algo muy potente!”

Quiero despedirme con un último momento memorable de nuestra familia. Este es la primera vez que nuestro hijo dio más de 2 pasos seguidos, capturado en la película. Y quiero que se centren en algo a medida que les muestre. Es un ambiente desordenado, es la vida natural. Mi madre está en la cocina, cocinando, y de todos los lugares, en el pasillo, me doy cuenta que está por hacerlo, por dar más de 2 pasos. Por eso me oyen dándole ánimo al darme cuenta lo que está sucediendo y luego se produce la magia. Escuchen muy atentamente. Al dar unos 3 pasos él se da cuenta que está pasando algo mágico. Y entra en acción el ciclo de respuesta más asombroso: él toma un respiro, y susurra “¡guau!” e instintivamente yo hago lo mismo. Retrocedamos en el tiempo hasta ese momento memorable.

(Video) DR: Oye. Ven aquí. ¿Puedes hacerlo? Oh, muchacho. ¿Puedes hacerlo? Bebé: Sí. DR: Ma, está caminando.

(Risas)

(Aplausos)

DR: Gracias.

(Aplausos)

Tomado íntegro de Ted, Ideas que vale la pena difundir.