Los desarrolladores de Facebook hicieron que un sistema de Inteligencia Artificial, que consiste de un turista y un guía, buscara un camino por una versión virtual de Nueva York. En el experimento descrito en arXiv.org, los investigadores observaron cómo los algoritmos de la computadora pueden orientarse en el espacio y transmitir información.

El programa Talk The Walk consta de dos agentes que se comunican entre sí en un lenguaje natural o informático. En el transcurso del experimento, el turista, abandonado en un punto al azar en el distrito "Cocina Infernal" de Nueva York, tuvo que llegar a su destino con la ayuda de un guía. Para ello, le informó de su ubicación de la misma forma en la que lo hace un humano. Después, los dos agentes comenzaron a dialogar: el turista le decía lo que veía, y el guía hacía preguntas y envió a un segundo agente, según María Cervantes en N+1.

El sistema Talk The Walk combinó por primera vez tres habilidades simultáneas: percepción, realización de acciones y diálogo interactivo. Para su trabajo, los programadores tomaron panorámicas de 360 ​​grados de "Cocina Infernal". No obstante, el guía usó un mapa bidimensional, es decir, sabía dónde estaba el punto final de la ruta, pero no sabía dónde estaba el "turista". En cambio, el "turista" tenía una visión de 360 ​​grados de los alrededores, pero no sabía dónde estaba el punto de destino ni cómo llegar allí.

Para obtener un conjunto de datos para el entrenamiento, los desarrolladores convocaron voluntarios a través del servicio Amazon Mechanical Turk. Los participantes llevaron a cabo diálogos entre ellos, cambiando periódicamente los roles. En total, los investigadores recopilaron más de 10.000 conversaciones. Los humanos necesitaron, en promedio, 44 ​​acciones y 8 o 9 réplicas para solucionar la tarea.

El algoritmo se basa en un mecanismo desarrollado por los investigadores MASC (Masked Attention for Spatial Convolution), que le permite determinar rápidamente qué palabras clave están en las respuestas del guía y cuáles son las más importantes para entender a dónde ir. Los especialistas de Facebook notaron que el uso de este mecanismo duplicó la precisión de los resultados. Pero, el programa funciona mejor cuando genera mensajes de forma independiente, en vez de extraerlos del conjunto de datos.

En el futuro, este método puede mejorar el rendimiento de los sistemas de inteligencia artificial en general. Por ejemplo, un algoritmo similar puede ser utilizado por vehículos no tripulados para encontrar una carretera cuando hay problemas con el GPS, o los robots podrán guiar a las personas en base a una descripción poco clara.

Además, los desarrolladores de Facebook han modernizado su arquitectura de red neuronal adversarial (o “red generativa antagónica”) con un algoritmo que puede abrir los ojos de una persona que en una foto aparece con los ojos cerrados, lo hace superponiendo sobre los párpados la imagen del ojo de aquella persona. El artículo ha sido publicado en el sitio web de Facebook Research.