28 / 07 / 2015

La UNAM crea un corpus oral para reconocimiento automático de voz en español mexicano

Comparte este artículo

Investigadores del Laboratorio de Procesamiento de Voz de la Facultad de Ingeniería de la Universidad Nacional Autónoma de México (UNAM) han desarrollado un corpus oral (base de datos de grabaciones de voz) para reconocimiento automático de voz en el español hablado en México, disponible para el público en general sin ningún coste.

Llamado Corpus de Investigación en Español de México, del Posgrado de Ingeniería Eléctrica y Servicio Social (Ciempiess), es una herramienta usada en lingüística y estudio de lenguas, así como en el área de procesamiento de señales, para el entrenamiento de sistemas de ejecución de órdenes por voz.

Ejemplo de ello, informa Investigación y Desarrollo, es un sistema que manipularía una prótesis de extremidades por medio de la voz o encendería y apagaría luces en un inmueble, entre otras aplicaciones.

Uno de los desarrolladores es Carlos Daniel Hernández Mena, que señala que hasta hace unos años era difícil conseguir este tipo de sistemas y que algunos eran sólo textuales (sin audio), en inglés y muy costosos.

Explica que para la creación de la herramienta se usaron sistemas de reconocimiento de voz diseñados para el idioma inglés desarrollados por otras universidades y que luego fueron adaptados al español que se habla en el centro de México.

A decir del maestro Hernández Mena, la herramienta puede tener aplicación en investigaciones forenses en la identificación de la voz de una persona, aunque este no sea el objetivo principal de su creación. “Para obtener la huella distintiva de una voz particular los especialistas recolectan alrededor de 15 minutos (o más si es posible) de grabaciones y con ello pueden llegar a modelar esa voz y reconocer sus características. Esto es especialmente útil para la identificación de secuestradores o en extorsiones telefónicas, por ejemplo”.

A lo largo de dos años, el corpus creado ha recopilado 16.717 registros de voz de personas (unas 17 horas de audio en total), sin ruido ni música de fondo, y sin acentos extranjeros, obtenidos de 40 horas de grabación de Radio-IUS, radio por internet de la Facultad de Derecho de la misma UNAM. El audio recolectado de Radio-IUS originalmente tenía una calidad de 44.1 kilo Hertz y 192 kilobits por segundo, que luego fue disminuida a 16 kilo Hertz y 16 bits por muestra, lo que permite una calidad ligeramente superior a la de un teléfono.

Ciempiess cuenta con un diccionario de pronunciación, es decir, una lista de todas sus palabras, cada una de ellas descompuesta en los fonemas que las componen. “Entrenar un sistema de voz es justo como enseñarle a un niño pequeño, es decir, que aprende a base de repeticiones; al programa le presentas una grabación que registra la palabra hola, junto con su transcripción, entonces reconoce el fonema o, ele, a; luego, si le presentas la misma palabra con otra voz diferente, el sistema se percatará que se parece a la anterior y comenzará a comprender que hay un patrón que luego intentará aprender".

El especialista agrega que si se juntan las huellas distintivas de voz de alrededor de 50 hablantes (como mínimo), hombres y mujeres, puede crearse un modelo más general aplicable para reconocer a una amplia gama de personas distintas a las 50 originales (siempre y cuando hablen el mismo dialecto).

Comparte este artículo
Suscríbete a nuestra Newsletter
Suscríbete