28 / 05 / 2015

Una herramienta de Dail Software analiza el vocabulario de los discursos del Premio Cervantes

Comparte este artículo

Un estudio realizado con la herramienta SimpleExtractor, de Dail Software, spin-off de la Universidad Politécnica de Madrid, ha analizado los tipos de sustantivos utilizados en los discursos de los ganadores del Premio Cervantes en dos etapas, su comienzo (1976-84) y un periodo reciente (2003-12). Las principales diferencias son que el segundo periodo se centró más en aspectos metalingüísticos que el primero, al tiempo que se eliminaban las referencias al comercio y el dinero.

En el primer subcorpus, además, se mencionaba la palabra ‘crisis’, no en el segundo, cuando ya era una realidad en la sociedad; en cambio, en el segundo período aparecen las palabras ‘muerte’, ‘pobreza’, ‘seriedad’, ‘trabajo’ y ‘guerra’.

La herramienta SimpleExtractor está en periodo de validación, y su uso con estos discursos es parte del proceso. Los investigadores extrajeron aquellos sustantivos que aparecían al menos 10 veces en total en todos los discursos de cada subcorpus, y los clasificaron en categorías semánticas, según un criterio habitual de la lengua inglesa.

El primer subcorpus consistió en los primeros 10 discursos impartidos entre 1976 y 1984 (hubo dos galardonados en 1979); y el segundo subcorpus constó de los últimos diez discursos, entre 2003 y 2012.

SimpleExtractor extrajo todas las palabras que aparecieran al menos 10 veces, y de forma manual se seleccionaron los sustantivos, "por ser las palabras que tienen mayor carga semántica".

El criterio clasificatorio es el de MacArthur (1981) en su diccionario semántico del vocabulario de la lengua inglesa, Longman Lexicon of Contemporary English, que define 14 categorías: 1) vida, 2) cuerpo, 3) gente y familia, 4) bienes tangibles, 5) comida, 6) emociones, 7) pensamiento, 7) sustancias, 9) artes y ciencia, 10) números, dinero y comercio, 11) entretenimiento, 12) espacio y tiempo, 13) movimiento, 14) términos abstractos y generales. Los científicos añadieron 15) nombres propios, una categoría importante en los discursos del Cervantes.

Se observa, señala el artículo, presentado en la conferencia AESLA (Asociación Española de Linguistica Aplicada), y publicado en la revista de la misma, un número similar de sustantivos utilizados en ambos subcorpus.

Atendiendo a la distribución de los términos, más del 60% de los sustantivos extraídos en ambos subcorpus se aglutinan en tres categorías: pensamiento y comunicación, lenguaje y gramática; espacio y tiempo; y nombres propios.

En el primer subcorpus, tres categorías carecen de elementos (comida; entretenimiento; y movimiento); en el segundo, solamente dos (comida; y números). Cabe resaltar la importancia de la categoría 'nombres propios' en ambos casos, pero especialmente en el primer subcorpus, ya que es la categoría con más ítems. "Se detecta una forma de ritual dentro de los discursos, ya que los mismos nombres propios son repetidos tanto en el primer periodo como en el segundo, por ejemplo, Cervantes, el Quijote, España y referencia a América".

La diferencia más notable entre los dos periodos es que se centran más en el tema 'pensamiento' en el segundo periodo (35.80%) que en el primero (22.2%). Así, los discursos del segundo periodo parecen centrarse en aspectos metalingüísticos, dando gran importancia a la lengua, libros, novelas, cuentos, poesías, a la lectura, palabras y al escritor; sin embargo, en el primer periodo se reparten los ítems de manera similar entre tres categorías, 'pensamiento', 'espacio y tiempo' y 'nombres propios'.

Es preciso resaltar también, señalan, la escasa importancia de la referencias a términos abstractos en los discursos, en contraposición a los términos que se refieren al espacio y al tiempo. Por último, "resulta llamativo que en el segundo periodo se reduce totalmente la alusión a los 'números, medidas, dinero y comercio', es decir, que es un tema a evitar".

Conclusiones

Una de las conclusiones del trabajo es que el desarrollo tecnológico ayuda a la automatización de tareas de análisis lingüístico. "Como pretendíamos comprobar, el extractor terminológico SimpleExtractor ha facilitado la tarea de recuperar los términos y su frecuencia en ambos subcorpus, así como mostrarnos el contexto original de cada ítem para realizar la clasificación en las categorías seleccionadas. Podemos concluir que se trata de una herramienta de fácil uso que permite diversas opciones para realizar investigaciones lingüísticas de corpus porque el usuario puede adaptar las opciones de búsqueda, adecuándolas a sus necesidades", señalan los científicos.

Este trabajo, añaden, "puede tener aplicaciones didácticas, de hecho la herramienta se puede utilizar con los estudiantes para realizar trabajos que conduzcan al aprendizaje del léxico y combinaciones léxicas, junto a la mejora de la comprensión y análisis de textos".

Tras la realización de este trabajo, se ha sugerido una mejora de la herramienta para las próximas versiones: que el extractor esté vinculado a un diccionario de forma que clasifique automáticamente las diferentes categorías gramaticales para facilitar futuras investigaciones.

Comparte este artículo
Suscríbete a nuestra Newsletter
Suscríbete