El próximo paso de la Inteligencia Artificial está a punto de lograrse

IAr

Los avances en la Inteligencia Artificial (IA) son en muchos casos asombrosos, aunque hay que reconocer que siempre están limitados por el dominio en el que actúan, es decir, son por ejemplo programas estupendos para jugar ajedrez o el juego oriental Go, o bien, son extraordinarios para reconocer objetos que aparecen en fotografías. La pregunta que ahora se hacen los científicos es si se puede dar un nuevo salto tecnológico enseñándoles a las máquinas que se den cuenta de su entorno.

Una nueva base de datos llamada Visual Genome podría llevar a las computadoras a este gran salto tecnológico y ayudar así a las máquinas a entender el mundo real de mejor manera. Enseñarle a las computadoras a comprender escenas visuales es muy importante en el campo de la IA. Y no es solamente un problema de algoritmos de visión por computadora, sino el buscar cómo hacer para entrenar a las computadoras para comunicarse más efectivamente pues es claro que el lenguaje parece estar íntimamente ligado con el mundo físico.

Visual Genome fue desarrollado por Fei-Fei Li, un profesor especializado en visión por computadora y quien dirige actualmente el laboratorio de IA de Stanford.Li y sus colegas habían creado antes imageNet, una base de datos que contiene más de un millón de imágenes que están etiquetadas por su contenido. Cada año hay un reto llamado ImageNet Large Scale Visual Recognition Challenge, que prueba la capacidad de los programas para reconocer automáticamente el contenido de las imágenes.

En el 2012 un equipo lidereado por Geofrey Hinton, de la Universidad de Toronto, construyó una poderosa red neuronal que podía categorizar las imágenes de forma mucho más precisa que cualquier programa antes escrito. La técnica usada, conocida ahora como “aprendizaje profundo”, involucra alimentar con miles de millones de ejemplos en muchas redes neuronales de varias capas, de forma que gradualmente entrenen cada una de estas capas de neuronas virtuales para responder a las características abstractas que a todo esto, son muchas y variadas, desde la textura de la piel de un perro, hasta la forma del mismo.

Los algoritmos para entrenar los ejemplos de Visual Genome podrían hacer mucho más que reconocer objetos y podrían eventualmente tener la capacidad de analizar escenas visuales más complejas. Por ejemplo, “estás sentado en tu oficina pero… ¿cómo están las cosas ordenadas en la misma, qué personas están, qué hacen, qué objetos hay alrededor, qué eventos están pasando?”, comenta Li. “Estamos tratando de entender el lenguaje porque es la forma de comunicarnos no solamente asignarnos números a los pixeles. Se necesita conectar la percepción y la cognición al lenguaje”, indica el investigador.

Es claro que nuevos algoritmos en la IA podrían organizar la clasificación de imágenes y se podrían tener robots que manejaran mejor los automóviles, que se dieran cuenta de las escenas que van ocurriendo a su alrededor, etcétera. Quizás se podría enseñar a las computadoras a tener sentido común, apreciando los conceptos que son físicamente posibles o bien, poco factibles.

Hay que señalar que Visual Genome no es la primera base de imágenes complejas accesibles a los investigadores para experimentar. Microsoft tiene su propia base de imágenes llamada Common Objects in Context, la cual muestra los nombres y posiciones de muchos objetos que pueden aparecer en las imágenes. Google, Facebook y otras empresas están aportando con nuevos algoritmos para poder procesar escenas visuales complejas. En una publicación científica del 2014, Google mostró un algoritmo que puede dar las etiquetas básicas para las imágenes, con niveles variados de precisión. Más recientemente Facebook mostró un sistema de preguntas y respuestas que puede responder a preguntas muy simples en las imágenes.

Por su parte, Aude Oliva, una profesora del MIT ha estudiado la visión humana y de computadoras y ha desarrollado una base de imágenes llamada Places2, la que contiene más de 10 millones de imágenes de diferentes escenas. Este proyecto busca inspirar el desarrollo de algoritmos capaces de describir la misma escena de diversas maneras, como lo hacen los seres humanos. Oliva dice que Visual Genome y otras bases similares podrán ayudar en la visión por computadora, pero cree que los investigadores de la IA necesitarán buscar su inspiración en la biología si quieren que las máquinas tengan capacidades similares a las de los humanos.

“Los humanos deciden e intuyen a partir de conocimiento, sentido común, experiencias sensoriales, memoria y ‘pensamientos’ que no son traducidos directamente en lenguaje escrito, hablado o texto”, indica Oliva. “Sin saber cómo el ser humano crea pensamientos, será difícil enseñar el sentido común y el entendimiento visual a un sistema artificial. Las neurociencias y las ciencias de las computadoras son dos lados de la misma moneda en la IA”, concluye.