22 / 03 / 2016

Mejoran los pies de foto por ordenador enfocándose al significado de las propias palabras

Comparte este artículo

Un equipo de la Universidad de Rochester (Nueva York, EE.UU.) y la empresa Adobe mejora la creación por ordenador de pies de foto, enfocándose en lo que significan las palabras y en cómo encajan en una estructura de oración, tanto como en la propia imagen.

El modelo, explica la universidad en una nota, mezcla los dos enfoques que se utilizan a menudo en los pies: el enfoque "de arriba hacia abajo", que se inicia desde la "clave" de la imagen y luego la convierte en palabras, y el enfoque "de abajo hacia arriba" , que asigna primero palabras a diferentes aspectos de la imagen y luego las combina para formar una frase.

El modelo de Rochester / Adobe lidera desde noviembre una competición en este ámbito, organizada por Microsoft, en la que participan también la propia Microsoft, Google, Baidu / UCLA, Universidad de Stanford, la Universidad de California en Berkeley, y la Universidad de Toronto / Montreal, entre otros.

El sistema se centra en lo que los investigadores describen como "atención semántica", que se define como "la capacidad de proporcionar una descripción detallada y coherente de objetos semánticamente importantes que se necesitan exactamente cuando se necesitan."

"Para describir una imagen hace falta decidir a qué prestar más atención", dice el profesor de ciencias de la computación Jiebo Luo. "No se trata sólo de lo que está en el centro de la imagen o del objeto más grande, también se trata de dar con una forma de decidir sobre la importancia de palabras específicas."

Por ejemplo, tómese una imagen que muestra una mesa y personas sentadas. La tabla puede estar en el centro de la imagen, pero un mejor subtítulo podría ser "un grupo de personas sentadas alrededor de una mesa" en lugar de "una mesa con personas sentadas." Ambos son correctos, pero el primero también trata de tener en cuenta lo que podría ser de interés para los lectores y espectadores.

Los pie de foto hechos por ordenador combinan dos áreas clave de la inteligencia artificial: la visión por ordenador y procesamiento de lenguaje natural. Los investigadores forman a sus sistemas con una enorme cantidad de datos de imágenes, y con muchos textos. El objetivo era no sólo que comprendieran la estructura de las oraciones, sino también los significados de las palabras individuales, qué palabras se usan a menudo junto a éstas, y qué palabras podrían ser semánticamente más importantes.

Comparte este artículo
Suscríbete a nuestra Newsletter
Suscríbete