Acapela le permite a cualquiera guardar su propia voz gratis en minutos, por si acaso

El habla sintética puede ser algo aterrador en estos días cuando se combina con falsificaciones profundas y otros engaños de IA, pero también es una herramienta indispensable para cualquiera que ya no pueda hablar por sí mismo. Acapela Group tiene en mente a estas personas con su nueva «mi propia voz» servicio, que permite a cualquiera formar un perfil de voz AI gratuitamente.

Acapela ha estado en el negocio de texto a voz durante aproximadamente 25 años y fue adquirida recientemente por el gigante tecnológico de accesibilidad Tobii Dynavox, aunque todavía operan de forma independiente.

Al igual que muchas industrias, la accesibilidad se ha visto fuertemente influenciada por la llegada de los procesos de aprendizaje automático a escala del consumidor. Hace siete u ocho años, recordó Remy Cadic, cofundador de Acapela, no solo era tedioso personalizar una voz sintetizada, sino que los resultados no eran particularmente buenos.

«Tomaba mucho tiempo: el paciente tenía que practicar durante 8 horas. Ahora podemos grabar una voz con solo 50 frases grabadas; lleva unos 10 minutos y la voz está lista al día siguiente», dijo. «Definitivamente hay una revolución continuando con las técnicas neuronales de texto a voz».

No estaban bromeando sobre lo rápido y fácil que fue el proceso: yo mismo pasé por el nuevo proceso con «mi propia voz», y en realidad eran solo 50 oraciones cortas, tomadas de un corpus (al azar, al parecer) novelas, libros de cocina y artículos. La interfaz de grabación era simple y fácil de navegar y, efectivamente, uno o dos días después, mi voz estaba lista para usar. La calidad es buena, no extraña como pueden ser algunos modelos, pero claramente mi propia voz (como se anuncia) y capaz de manejar cualquier frase que le lancé en la página de demostración.

Ahora que está aquí, si alguna vez lo necesito, puedo ir y descargarlo por una tarifa para usarlo en cualquier sistema de generación de voz compatible. Obviamente, esto incluye los dispositivos TD Talk y Tobii Dynavox; la empresa acaba de lanzar uno nuevo la semana pasadade hecho, estas cosas se vuelven bastante elegantes.

Delaina prueba el nuevo dispositivo Tobii-Dynavox.

Y ese es el verdadero punto de todo: no es una demostración técnica del poder de la tecnología de voz neuronal o una demostración que permite que cualquiera le dé una voz de celebridad para clonar. Es una herramienta diseñada específicamente para personas que, hasta hace poco, pueden no haber tenido opciones o, en el mejor de los casos, un proceso difícil y complejo si querían preservar su voz.

Muchas personas que enfrentan enfermedades degenerativas, cánceres o ciertos procedimientos saben que dentro de unos meses o años es posible que no puedan hablar correctamente o en absoluto. Hacer que el proceso bancario con su voz sea lo más fácil posible es un servicio que muchos apreciarán.

“Una gran ventaja es que también personalizamos para niños: hemos hecho que el guión de grabación sea más fácil de leer y hemos ajustado el sistema para mejorar la calidad de las voces sintéticas de los niños. Fuimos los primeros en el mundo en hacer esto, y todavía vamos en esta dirección”, dijo Cadic.

Ser capaz de grabar y volver a grabar o envejecer artificialmente la voz almacenada es una habilidad nueva y desafiante, pero que parece estar dando resultados:

La compatibilidad con dispositivos fuera de línea que carecen del último chip de procesamiento neuronal también es un diferenciador clave. «Hay soluciones en línea donde es fácil crear una voz, pero solo está disponible a través de la nube y simplemente no es práctico», dijo.

La empresa también ha descubierto que la diversidad y la reflexión en el proceso de formación son tan importantes como en otras aplicaciones de IA. Un problema que Cadic señaló con algunas técnicas de entrenamiento superrápidas es que «básicamente se trata de encontrar al orador en el material de entrenamiento más cercano al usuario». Pero si no hay un orador en la formación cercano a la voz original, simplemente no sonará de esa manera.

El Gerente de Producto de Acapela, Nicolas Mazars, agregó que, como muchos problemas de IA que se originan en datos de entrenamiento insuficientes, este no se distribuye uniformemente: «Este proceso funciona bien para el hombre blanco de 50 años promedio, pero no si es un hombre afroamericano. o no hablan bien inglés. Trabajamos en 23 idiomas y tenemos muchos usuarios con discapacidades. Estamos tratando de aprovechar los comentarios de los usuarios y desarrollar algo para ellos, por ellos.

El proceso de registro y banca es gratuito; Puedes crear una cuenta aquí y entrena tu propia voz sintética en minutos. Solo pagas si quieres descargarlo e instalarlo en un dispositivo.

Más contenidos sobre empresas en América Latina