Los errores ortográficos y su impacto en el análisis de la reputación online

enero 5 2018

Asistimos a una evolución vertiginosa de un mundo cada vez más global y digital. El auge de las comunicaciones ha transformado la manera en que las personas se relacionan, comunican e informan. Por eso, a su vez, las herramientas y servicios tecnológicos se orientan a gestionar la información que los usuarios vierten en la red con el fin de almacenar, monitorizar y medir esa información plasmada en cualquier medio y forma. El objetivo final es conocer la reputación online que posee una marca, empresa o persona.

¿Qué empresa, por ejemplo, no querría saber qué dicen los usuarios de su producto estrella o cuál es el impacto y la opinión que ha generado una persona tras su aparición en un acto?

Sin duda, obtener este tipo de información otorga de un valor incalculable a una empresa para poder gestionar sus estrategias de marketing.
Junto con la necesidad de las empresas de conocer su reputación online, nacen numerosas empresas y servicios tecnológicos cuya misión es analizar los comentarios, opiniones, monitorizar las apariciones en medios, etc. para informar al cliente final sobre qué se ha dicho de este en los medios y poder trazar una línea de acción futura.
Ahora bien, la tarea de almacenar, monitorizar y medir la información que ha plasmado un cliente de cualquier forma se torna difícil y complicada si la información que hay que recopilar es lingüísticamente errónea. Es decir, los usuarios (ya sean empresa o cliente) cometen numerosas faltas de ortografía como pueden ser la alteración en el orden de letras, unión y separación de palabras, errores de acentuación y errores de puntuación. Esto dificulta la tarea del procesamiento de lenguaje natural por parte de las máquinas y hará que estas no comprendan aquello que un usuario o una empresa quiso expresar en un momento determinado.

Se va a convertir en una primera tarea primordial para el procesamiento de lenguaje natural la corrección de ese lenguaje confuso en lenguaje procesable.

A continuación se muestran 2 ejemplos reales:

Ejemplo 1

Se muestra un comentario obtenido de la red social Trip Advisor:

“Qué veeguenza de sitio , uele a bino rancio , se nota que hace meses que no pasan la fregona. La mesa donde nos sentamos estaba chorreosa, lo mas seguro que pasarian la balleta sucia sobre sucio. Las cocacolas sin gas de tonelada y media inbebibles, el relleno de las cocretas era lo mas parecido al aguaplast , los calamres tiesos y elasticos como un tirachinas…”

Como se puede apreciar, este comentario contiene numerosas faltas de ortografía. Se marcan en rojo:

“Qué veeguenza de sitio , uele a bino rancio , se nota que hace meses que no pasan la fregona. La mesa donde nos sentamos estaba chorreosa, lo mas seguro que pasarian la balleta sucia sobre sucio. Las cocacolas sin gas de tonelada y media inbebibles, el relleno de las cocretas era lo mas parecido al aguaplast, los calamres tiesos y elasticos como un tirachinas…”

La comprensión de este comentario ya resulta compleja si es leído por un humano y resulta fatal para una máquina.

¿Cuál es la consecuencia de que un texto contenga faltas de ortografía?

Imaginemos que la empresa, en este caso un restaurante, quisiera conocer qué se dice de su vino, croquetas, calamares o incluso de la higiene del lugar. Si no se reparan estas faltas de ortografía, difícilmente se puede recuperar toda la información que contiene “croquetas”, “calamares” o “vino”.

Se puede entonces afirmar que si no se lleva a cabo una corrección ortográfica, supondrá una pérdida de información y, por consiguiente, una pérdida de la objetividad de los resultados de los informes que proporcionan las herramientas que se dedican al análisis de la reputación online.

Ejemplo 2

En el ejemplo anterior se muestra cómo la recuperación del contenido se ve afectada por los errores ortográficos. Se muestra a continuación un ejemplo donde la ortografía afecta no solo al contenido sino al continente.

Dentro de la actividad naviera, se encuentra una compañía llamada “Trasmediterránea”. Se expone este ejemplo porque existe en español un fenómeno ortográfico por el que un gran conjunto de palabras que comienzan con el prefijo “trans-“ pueden escribirse también con la forma simplificada “tras-“ cuando este prefijo significa “detrás de, al otro lado de o “a través de”[1].

Para poder comprender mejor la cantidad de información que pierde esta compañía si no dispone de un analizador ortográfico, se va a comprobar[2], dentro de un periodo de dos meses, cuántas veces ha aparecido en prensa y Twitter “transmediterránea” frente a “trasmediterránea”.

Alternativa	Medio	Nº de apariciones
Transmediterránea	Prensa	26
Transmediterránea	Twitter	39
Trasmediterránea	Prensa	107
Trasmediterránea	Twitter	148

Tabla 1. Frecuencia de aparición en medios de Transmediterránea / Trasmediterránea

Es decir, Trasmediterránea ha perdido en 2 meses el 20% de la información en prensa y el 19.54 % de la información en Twitter, en el caso de no disponer de una analizador ortográfico que dé cuenta de este tipo de fenómenos ortográficos.

¿Cuál sería el método de análisis?

El primer paso, sin duda, es la recopilación de los datos que se quieren analizar, es decir, almacenar y monitorizar aquellos medios que se van a analizar. Un segundo paso, sería la corrección ortográfica automática de los miles o millones de comentarios recopilados o monitorizados. No cabe la posibilidad de la corrección ortográfica manual (es decir, que una persona revise) pues la cantidad de comentarios para examinar hacen esta tarea muy costosa (en tiempo y costes). Este segundo paso, además de utilizar un sistema de Inteligencia Híbrida, daría lugar al análisis objetivo cuantitativo y/o calificativo de los datos.

Solución tecnológica: corrector ortográfico inteligente

Dail Software ha desarrollado una solución tecnológica para asegurar la correcta lectura de la información por parte de las máquinas: un corrector ortográfico inteligente.

A continuación se va a corregir el comentario anterior de la red social Trip Advisor.

Introducimos el texto de entrada que contiene errores ortográficos. La aplicación avisa recuenta los errores: el texto contiene 10 errores ortográficos y se han corregido automáticamente 2.

Una vez ha recontado los errores. La aplicación va a proceder a la corrección automática inteligente. Este es el resultado:

Las palabras que aparecen en verde son las palabras que ha corregido automáticamente el sistema. Las palabras en naranja son una propuesta al usuario, quien puede aceptar o modificar.

Este corrector ortográfico puede ser incluido en aplicaciones para la supervisión automática de la ortografía, como por ejemplo en la herramienta de DAIL “AGORA“, solución de Inteligencia Artificial para el análisis y monitorización en social y digital media.

A modo de síntesis, se ha comprobado que tanto la corrección ortográfica como el análisis de los fenómenos ortográficos presentes en comentarios, noticias, etc. se convierten una tarea primordial. Solo así se podra analizar y medir el impacto de la reputación online con una calidad excelente y asegurando obtener toda la información que se ha recogido de la red o cualquier otro canal.

[1] http://lema.rae.es/dpd/?key=trans-

[2] Para la comprobación de la aparición y su frecuencia en prensa y Twitter se ha utilizado la herramienta Social Clipping (www.social-clipping.com) y Customer Experience

Entrada anterior

Por qué y cómo incorporar Inteligencia Artificial a tu empresa

Próxima entrada