11 / 01 / 2016

Deep Speech 2, de Baidu, reconoce el inglés y el mandarín casi mejor que las personas

Comparte este artículo

La empresa china de búsquedas de Internet Baidu ha desarrollado un sistema de voz capaz de reconocer el habla inglesa y mandarina mejor que las personas, en el caso de las frases cortas y fuera de contexto, informa MIT Technology Review.

El nuevo sistema, llamado Deep Speech 2, es especialmente significativo por su dependencia completa del aprendizaje de máquinas para la traducción. Donde los sistemas más antiguos de reconocimiento de voz incluyen muchos componentes desarrollados a mano para ayudar con el procesamiento de audio y la transcripción, el sistema de Baidu aprendió a reconocer palabras desde cero, simplemente al escuchar miles de horas de audio transcrito.

La tecnología depende de una potente técnica conocida como aprendizaje profundo, que incluye el entrenamiento de una enorme red virtual de múltiples capas de neuronas para reconocer patrones dentro de vastas cantidades de datos. La app de Baidu para smartphone permite que los usuarios busquen por voz, y también incluye un asistente personal controlado por voz llamado Duer.

Las consultas hechas por voz son más populares en China porque requiere más tiempo introducir el texto, y porque algunos usuarios no saben utilizar Pinyin, el sistema fonético para transcribir el mandarín utilizando caracteres del latín.

Para frases cortas, fuera de contexto, parece estar superando los niveles humanos de reconocimiento.

Al desarrollar Deep Speech 2, Baidu también ha creado una nueva arquitectura de hardware para el aprendizaje profundo que se ejecuta siete veces más rápido que la versión anterior.

Comparte este artículo
Suscríbete a nuestra Newsletter
Suscríbete