El director de tecnología de DAIL Software desarrolla modelos originales para el tratamiento automático de la lengua
- marzo 20 2016
Miguel Ángel de la Villa, director del área tecnológica de DAIL Software, presentó a principios de febrero su tesis doctoral, en la que propone varios modelos lingüísticos de tratamiento automático de la lengua.
Los modelos, concebidos desde una perspectiva de independencia con respecto a la lengua, permiten tanto construir automáticamente conocimiento enciclopédico a partir de textos como resolver el problema de la anáfora.
El trabajo, titulado Método para la Construcción Automática de Ontologías Basado en Patrones Lingüísticos, supone un avance destacado, tanto en el área de la Lingüística como en el tratamiento automático de la lengua, de cara a hacer sistemas que permitan en el futuro sobrepasar los problemas del multilingüismo.
Así, uno de los modelos propuestos resuelve el fenómeno lingüístico de la anáfora (expresiones cuya interpretación depende de otra expresión presente en el contexto del discurso). El modelo acomete el problema analizando el significado del texto con independencia de la lengua con la que está escrito, permitiendo interpretar las anáforas presentes en textos de diferentes idiomas.
Asimismo, propone un modelo que permite extraer información útil de grandes cantidades de documentos y construir así de forma automática lo que se denomina conocimiento enciclopédico. La propuesta podría ser la base de los llamados repositorios de conocimiento.
La tesis, realizada a lo largo de varios años, ha sido parcialmente publicada en medios internacionales en varias ocasiones y ha sido dirigida por el fundador de DAIL Software, Jesús Cardeñosa, también director del Grupo de Validación y Aplicaciones Industriales de la Universidad Politécnica de Madrid, al que pertenece Miguel Ángel de la Villa.
Interlinguas
La principal contribución de esta tesis consiste en que, a diferencia de la mayoría de las técnicas actuales, el método que se propone no analiza la estructura sintáctica superficial del lenguaje, sino que estudia su nivel semántico profundo.
Debido a que el nivel semántico profundo es independiente de la lengua, el método permite operar en escenarios multilingües, en los que es necesario combinar información proveniente de textos en diferentes idiomas.
Para acceder a este nivel del lenguaje, el método utiliza el modelo de las interlinguas. Estos formalismos, provenientes del área de la traducción automática, permiten representar el significado de las oraciones de forma independiente de la lengua. Se utiliza en concreto UNL (Universal Networking Language), considerado como la única interlingua de propósito general que está normalizada.
La aproximación utilizada en esta tesis supone la continuación de trabajos previos realizados tanto por su autor como por el equipo de investigación del que forma parte, en los que se estudió cómo utilizar el modelo de las interlinguas en las áreas de extracción y recuperación de información multilingüe.
El procedimiento trata de identificar, en la representación UNL de los textos, ciertas regularidades, que se presentan en forma de grafos, generalizándose en estructuras denominadas patrones lingüísticos.
Algoritmo específico
Por otra parte, UNL aún conserva ciertos mecanismos de cohesión del discurso procedentes de los lenguajes naturales, como el fenómeno de la anáfora. Con el fin de aumentar la efectividad en la comprensión de las expresiones, el método provee, como otra contribución relevante, la definición de un algoritmo para la resolución de la anáfora pronominal circunscrita al modelo de la interlingua, limitada al caso de pronombres personales de tercera persona cuando su antecedente es un nombre propio.
Tanto el marco formal como todos los procesos que define el método se han implementado con el fin de realizar la experimentación, aplicándose sobre un artículo de la colección EOLSS, Encyclopedia of Life Support Systems de la Unesco.