9 / 09 / 2015

Producen tecnología para lenguas minoritarias gracias a la Biblia y Wikipedia

Comparte este artículo

Lingüistas de la Universidad de Copenhague (Dinamarca) han producido tecnología del lenguaje que funciona para 100 idiomas minoritarios y grandes al mismo tiempo, basándose en versículos bíblicos y artículos de Wikipedia.

"Cuando desarrollamos sistemas de traducción automática y motores de búsqueda, por lo general introducimos en la computadora grandes cantidades de textos que contienen información sobre la función y el significado de las palabras. Por razones históricas, estos textos han sido principalmente artículos de periódicos en inglés y otras grandes lenguas. No tenemos acceso a textos similares en lenguas más pequeñas como la de las Islas Feroe, el galés, el gallego y el irlandés, o incluso una lengua africana importante como yoruba, que es hablada por 28 millones de personas", dice el profesor Anders Søgaard, de la Universidad de Copenhague, en la nota de prensa de ésta.

Søgaard y sus colegas apostaron por buscar textos que hubieran sido traducidos a muchos idiomas, de modo que pudiera transmitirse el conocimiento sobre la gramática de las lenguas grandes al de las pequeñas.

"La Biblia ha sido traducida a más de 1.500 idiomas, incluso la mayoría de los más exóticos y pequeños, y las traducciones son extremadamente conservadoras; los versos tienen una estructura completamente uniforme en los diferentes idiomas, lo que significa que podemos hacer modelos informáticos adecuados incluso para lenguas muy pequeñas, con sólo doscientas páginas de texto bíblico", explica Søgaard.

Wikipedia

La enciclopedia en línea hecha por usuarios Wikipedia también ha demostrado ser una fuente muy útil para los investigadores, que utilizan sus textos para desarrollar recursos lingüísticos. Wikipedia contiene más de 35 millones de artículos, pero es el hecho de que por lo menos 129 idiomas están representados con más de 10.000 artículos de cada uno el que hace que los investigadores la encuentren interesante, puesto que muchos artículos se refieren a los mismos conceptos y temas.

"Esto nos permite hacer lo que llamamos "indexación invertida", lo que significa que se utiliza el concepto que los artículos tratan de describir para describir precisamente las palabras usadas para describirlo", explica Søgaard. "Si aparece la palabra gafas en la entrada de la Wikipedia sobre Harry Potter, y la palabra alemana Brille se utiliza en la entrada alemana equivalente, es muy probable que las dos palabras se representen de forma similar en nuestros modelos de sistemas de traducción automática. Y la ventaja de este modelo es que puede ser aplicado a 100 idiomas diferentes al mismo tiempo, incluyendo a muchos idiomas a los que previamente se les han negado los recursos de tecnología que usamos todos los días".

Comparte este artículo
Suscríbete a nuestra Newsletter
Suscríbete