4 / 01 / 2016

Crean una base de datos sobre películas para que las máquinas ‘entiendan’ los cuentos

Comparte este artículo

Makarand Tapaswi, del Instituto Karlsruhe de Tecnología (KIT, Alemania) y sus compañeros de equipo han recopilado una base de datos de películas que debería servir como campo de pruebas para las máquinas de aprendizaje profundo y su capacidad de razonar sobre el contenido de los cuentos.

El conocimiento base de su proyecto, informa MIT Technology Review, es que la habilidad de contestar preguntas acerca de un cuento o una película es un importante indicador de si se ha entendido o no. Así, el objetivo es crear pruebas de selección múltiple sobre las películas que consten de un conjunto de preguntas y varias respuestas plausibles, de las cuales sólo una es correcta.

El equipo de Tapaswi empezó recopilando de Wikipedia resúmenes del argumento de unas 300 películas. El nivel de detalle de estos resúmenes varía entre un par de párrafos y más de 20. Luego conectaron el resumen a la propia película, lo cual suma un importante volumen de datos.

Las películas claramente muestran informaciones que pueden responder a las preguntas del tipo "¿Quién hizo qué, a quién?" Pero no siempre contienen las informaciones que responderían a preguntas acerca de por qué suceden las cosas, para lo cual a veces se necesitan conocimientos adicionales acerca de cómo funciona el mundo.

Así que el equipo también recopiló información de fuentes adicionales, como los textos del audio explicativo para invidentes, y los guiones originales de las películas.

Luego varios humanos escribieron preguntas basadas en las películas, y cuatro respuestas incorrectas para cada una de ellas. La base de datos resultante contiene más de 7.000 preguntas.

Las preguntas son, por ejemplo: "¿Cuál es el mote de Jeff Lebowski?", "¿Por qué le dan miedo los murciélagos a Bruce?", "¿Hacia dónde guía Aragorn a la Comunidad del Anillo?", "¿Qué hace WALL-E cuando cree que se ha apagado Eva?"

Los investigadores probaron varias estrategias de pregunta-respuesta para máquinas, pero ninguna salió muy bien parada. La idea es entrenar máquinas para que en el futuro alguna lo consiga. Un objetivo importante será averiguar si esta base de datos se aproxima o no al tamaño necesario para ayudar a entrenar a las máquinas. Es algo que pronto averiguará el equipo de Tapaswi, que hará pública la base de datos el año que viene en este enlace.

Comparte este artículo
Suscríbete a nuestra Newsletter
Suscríbete