22 / 07 / 2015

La UNAM desarrolla múltiples aplicaciones de ingeniería lingüística

Comparte este artículo

El Grupo de Ingeniería Lingüística (GIL) de la Universidad Autónoma de México combina especialistas del área de las letras y la lingüística, con los de ciencias de la computación. Sus aplicaciones van desde la traducción automática, a un diccionario inverso, o la atribución de autoría de un texto.

Gerardo Sierra, director del GIL. Fuente: UNAM.

Según explica un comunicado de la UNAM, la traducción automática consiste en encontrar una equivalencia inmediata entre palabras de idiomas diferentes. Un traductor humano sabe cómo hacer su trabajo; sin embargo, transmitir ese conocimiento a una computadora por medio de algoritmos es un problema en el que no sólo se necesita el conocimiento lingüístico, sino también inteligencia artificial, estadística y otras áreas.

“Ya tenemos a disposición de empresas e instituciones académicas una serie de tecnologías del lenguaje. Hemos desarrollado un sistema llamado Describe, en el que es posible obtener definiciones, no de diccionario, sino de los usuarios. El objetivo es que identifique y extraiga cualquier definición que haya en la web y nos permita acceder a ellas, como si se realizara una búsqueda en Google”, señala Gerardo Sierra Martínez, director del GIL.

Para extraer esos datos se emplean diversos patrones, que van desde sencillos hasta muy complejos, que indican en qué parte del texto hay una definición.

Diccionario inverso

En el GIL también se ha creado otro producto interesante: un diccionario electrónico que realiza búsquedas inversas, es decir, parte del significado para darnos la palabra adecuada. Por ejemplo, si escribimos “libro donde se guardan las palabras y se proporcionan sus definiciones”, el programa nos dará como respuesta “diccionario”.

Las tecnologías del lenguaje también son utilizadas con fines forenses. “En casos en los que se desea identificar a la persona que hizo una llamada telefónica, de extorsión, por ejemplo, se emplean programas para hacer análisis de espectrogramas de voz; se procesa la voz de la grabación y se compara con la de posibles responsables”.

“En las cárceles tienen un registro de las voces de los presos; a partir de ciertos rasgos del sonido de éstas es posible detectar la edad de un individuo, su nivel sociocultural y su origen geográfico. Esta información puede ser determinante en la resolución de un caso legal”, subrayó.

Atribución de autoría

“En un conjunto de documentos escritos por diferentes autores hacemos experimentos para identificar qué características de sus textos nos permiten hacer una clasificación por autor”, añade Julián Solórzano, del Grupo.

En el GIL cuentan con un sistema que identifica ciertas características, como qué signos de puntuación y con qué frecuencia los emplea cierto escritor. “En el caso de categorías gramaticales, nos fijamos en qué proporción usa adjetivos o verbos. El análisis se hace incluso más granular si queremos saber en qué medida utiliza verbos en pasado o en futuro”.

De igual manera, trabajan con la recurrencia de bigramas y trigramas, es decir, qué par o trío de palabras suele usar de manera conjunta un autor. Se ha encontrado que las que se manejan en mayor medida son “y” seguido por “de”, pero están también “y para” o “por supuesto”.

Lenguas de bajos recursos digitales

Se consideran lenguas de bajos recursos digitales a las que, por alguna razón, no tienen mucha producción escrita, no hay muchos hablantes o no hay suficientes recursos digitales disponibles en la web. Crear tecnología para éstas representa un reto. Las lenguas mexicanas son ejemplos de ello, expuso María Ximena Gutiérrez Vasques, doctorante del GIL.

Además del español, en nuestro país se hablan 68 lenguas o agrupaciones lingüísticas. Aunque tienen reconocimiento oficial o de carácter nacional, no hay muchos textos en Internet traducidos a éstas y, por lo mismo, es difícil la elaboración de traductores automáticos o tecnologías.

Un problema es que la mayor parte se desarrolla sólo para un subconjunto pequeño de idiomas, por ejemplo el inglés y el chino. “El reto que tenemos en el GIL es hacerlas para las lenguas mexicanas, como el náhuatl, con el fin de generar modelos”, termina.

Comparte este artículo
Suscríbete a nuestra Newsletter
Suscríbete