Un periodista que está mudo volverá a la radio gracias a una voz 2.0

El periodista radial estadounidense Jamie Dupree, que perdió la voz debido a una extraña enfermedad, volverá a trabajar el lunes gracias a la inteligencia artificial (AI), tecnología que usaron desarrolladores para devolverle la posibilidad de hablar.

Desde hace 30 años el reportero trabaja para Cox Media Group cubriendo temas políticos desde Washington. En 2016 comenzó a tener problemas para hablar hasta que enmudeció.

El año pasado la Clínica Cleveland diagnosticó su enfermedad como distonía protruyente de la lengua, una afección neurológica que hace que la lengua sobresalga involuntariamente y que la garganta se cierre cuando el cerebro envía la señal para hablar. La condición es extremadamente rara, hay poca comprensión de la causa y ningún tratamiento conocido, informó el portal AJC.

La condición de Dupree llamó la atención de CereProc, una compañía escocesa que crea tecnología de texto a voz, para lo cual necesitan tener registros del habla de la persona. Por eso usaron las grabaciones de audio del periodista logradas durante sus años de aire radial.

El mes pasado el periodista abrió su computadora, escribió su primera oración que fue leída por la portátil: «Mi nombre es Jamie Dupree. Esta es mi nueva voz «.

Así que a partir del lunes, él estará de vuelta en la radio con su nueva voz, llamada Jamie Dupree 2.0.

Sus informes desde Washington serán pronunciados por la creación sintetizada de CereProc.

«Mira, la voz no es perfecta. A veces suena robótica … Pero puedo escucharme a mí mismo en esas palabras. Y creo que los oyentes también podrán escucharme», escribió el profesional.

CereProc tiene un sistema de inteligencia artificial que puede generar una voz en pocos días. Por lo general, para crear una voz para alguien, el individuo necesita leer un guión durante 30 horas para recopilar suficientes datos, algo que no pudo hacer el periodista, por eso se usaron sus archivos de audio radiales.

Luego, la IA se aplica para cortar las palabras del archivo de audio y volver a pegarlas a pedido, o la tecnología se usa para predecir e imitar los patrones de discurso de la persona, explicó la BBC.

Para acelerar el proceso, la compañía comenzó a desarrollar sus propias redes neuronales en 2006, las que contienen entre seis y 10 capas cada una, y funcionan cortando las grabaciones de audio de las palabras a la fonética.

El sistema de IA corta cada palabra leída por un individuo en 100 pedazos pequeños, y lo hace con muchas palabras comunes hasta que finalmente comprende cómo funciona la fonética básica en la voz de esa persona y logra una secuencia ordenada para todas las piezas de cada palabra.

Entonces, la red neuronal puede crear sus propios sonidos y predecir cómo sonaría la persona si dijera una serie de palabras en una conversación.