27 / 11 / 2015

‘Sumar’ y ‘restar’ palabras para que las entiendan las máquinas

Comparte este artículo

Científicos de la Universidad de Melbourne (Australia) transforman las palabras en vectores matemáticos, que se suman y se restan, para que las máquinas puedan leerlas. Google sigue una estrategia similar para su traductor automático.

Según informa MIT Technology Review, la revista de MIT, este sistema utiliza la frecuencia con la que una palabra aparece junto a otra, un importante factor para su uso. La palabra olimpiadas puede aparecer junto a palabras como 'correr', 'saltar' o 'lanzar', pero con menos frecuencia junto a palabras como 'electrón' o 'estegosaurio'. Este conjunto de relaciones se puede considerar como un vector multidimensional que describe cómo se emplea la palabra 'olimpiadas' dentro de un idioma, que en sí mismo se puede considerar como un espacio vectorial.

Timothy Baldwin y sus compañeros están explorando una de las curiosas propiedades matemáticas de los espacios vectoriales: el hecho de que añadir o eliminar vectores produce otro vector dentro del mismo espacio.

Por ejemplo: París - Francia + Polonia = Varsovia. En este caso, la diferencia vectorial entre 'París' y 'Francia' capta el concepto de la ciudad capital.

Uno de los pioneros e impulsores de este campo es Google y su equipo de traducción de máquinas. Han descubierto que una relación de vector que aparece en inglés generalmente se aplica también en español, alemán, vietnamita, y de hecho en todos los idiomas.

Así es como Google realiza sus traducciones automáticas. En esencia, considera que una frase es equivalente en dos idiomas si su posición dentro del espacio vectorial de cada idioma es igual. Con este enfoque, su significado tradicional es casi irrelevante. Pero debido a la naturaleza idiosincrásica del lenguaje, existen numerosas excepciones, y son estas precisamente las que causan problemas para los algoritmos de traducción de máquinas.

Comparte este artículo
Suscríbete a nuestra Newsletter
Suscríbete