3 / 05 / 2016

Un sistema de Microsoft genera pies de foto narrativos de forma automática

Comparte este artículo

Un trabajo publicado por Microsoft Research describe un sistema de generación de pies de foto que imita el estilo de los humanos de narración visual, añadiendo contexto y emoción.

"En lugar de proporcionar una descripción sosa o descafeinada, se consigue un contexto narrativo más amplio", explica el doctorando de la Universidad de Johns Hopkins (Baltimore, EE.UU.) y coautor del trabajo Frank Ferraro, en MIT Technology Review.

Consideremos un álbum de fotos que retrata a un grupo de amigos que celebra un cumpleaños en un bar. Algunas de las primeras fotos muestran a la gente pidiendo cerveza y bebiéndola, mientras una foto posterior muestra a alguien dormido en un sofá. "Un sistema de leyendas podría decir simplemente: 'Una persona tumbada en un sofá", dice Ferraro. "Pero un sistema narrativo podría ser capaz de decir: 'Dado que creo que esta gente estaba de juerga o habían quedado para comer y beber, entonces esta persona podría estar borracha".

El equipo convirtió una llamada red neuronal de secuencia recurrente en narradora al entrenarla con imágenes de Flickr. Un enfoque similar a los que se emplean para describir el contenido de fotos individuales produjo historias demasiado genéricas. Para remediarlo, el equipo desarrolló una manera de que la red elija las palabras que tengan una alta probabilidad de destacar. También entrenaron al sistema para que no repitiese palabras.

Comparte este artículo
Suscríbete a nuestra Newsletter
Suscríbete