Servicios como Midjourney y ChatGPT han superado los límites de cómo la IA puede crear imágenes y texto a partir de indicaciones de texto básicas. Ahora, el audio parece la próxima frontera inevitable. La generación de música basada en indicaciones de palabras, los tutores de IA para el aprendizaje de idiomas y los simuladores de voz han experimentado avances en los últimos meses. Voz.ai espera ser parte de esa conversación (je) con tecnología que permite a los usuarios cambiar (y disfrazar) su voz en tiempo real, y ahora ha recaudado su primera financiación externa justo después del crecimiento inicial.
Con más de 480 000 usuarios y una biblioteca de más de 50 000 filtros de voz, Voice.ai ha recaudado $6 millones, financiamiento que planea usar para llevar su tecnología de cambio de voz a nuevos lugares.
Mucker Capital y M13 lideran la ronda. Hasta ahora, Voice.ai ha crecido gracias al boca a boca (la startup tiene un canal de Discord con más de 120 000 personas) gracias a $3 millones en autofinanciamiento.
Actualmente, las herramientas de la empresa, disponibles como aplicaciones para Mac, PC, Android e iOS, están siendo adoptadas por jugadores, creadores de contenido, Vtubers y otros en TikTok, Zoom, Discord, Minecraft, GTA5, Fortnite, Valorant, League of Legends, entre otros. Nosotros, Skype, WhatsApp y otras plataformas. La interfaz de Voice.ai les permite crear una nueva voz o elegir entre unas 50 000 voces diferentes creadas previamente (creadas y compartidas por usuarios como ellos), que pueden usarse tal cual o modificarse, para usarse en vivo en plataformas compatibles. o para grabaciones.
El plan es utilizar los fondos para contratar más talento técnico y crear nuevos SDK y API para trabajar con otras plataformas como Meta, Unreal y Unity; proporcionar soporte multilingüe; y agregue nuevas aplicaciones como cantar donde la voz es el centro del escenario.
La puesta en marcha no lo destaca, pero será interesante ver si también utiliza parte de los fondos para aumentar la capacidad del servidor.
No es una carga pequeña. Como anécdota, hemos escuchado que el dolor de la GPU es uno de los mayores factores desencadenantes de la cantidad de aplicaciones de IA que pueden escalar en este momento. (Esa es parte de la razón por la que se cierran grandes acuerdos que incluyen estrategias que brindan procesamiento y capacidad de servidor).
Para Voice.ai en particular, su voz se procesa localmente y se enruta donde sea que se use a través de lo que el fundador y director ejecutivo, Heath Ahrens, me describió como un «cable de audio virtual». Pero cuando mira las revisiones de sus aplicaciones, una queja común es que cuando se registra, lo colocan en una lista de espera porque «la abrumadora demanda tiene nuestros servidores llenos» con la promesa de que se le notificará cuando aumente el servicio. . capacidad.
Hay docenas de servicios de voz a voz y de voz a voz en el mercado hoy en día, y ya hay mucha actividad entre ellos: el año pasado, Spotify adquirió Sonantic y Snap compró un asistente de voz de IA aún más grande antes que eso; otra startup, Sanas, está trabajando en cambiar tu acento y hay simuladores de voz Murf y Acapela, entre muchos otros. Voice.ai se incluye en la misma categoría general que Respeecher y ElevenLabs, dos nuevas empresas de inteligencia artificial de voz a voz, que permiten a los usuarios aplicar máscaras para alterar o transformar completamente su voz; en algunos casos, creando voces completamente sintéticas en lugar de las reales. cosa.
Discurso, fondée et basée en Ukraine, s’est fait un nom en aidant à construire une nouvelle voix de Dark Vador pour les nouveaux épisodes de Star Wars, basée sur la façon dont James Earl Jones sonnait il y a 45 ans lorsqu’il a créé el papel. (En línea con un personaje empeñado en destruir mundos, La voz de Dark ha sido entregada. al cliente de Hollywood desde sus oficinas en Ucrania cuando Rusia ingresó al país).
ElevenLabs – famoso (o infame) según el caso) – ha construido una plataforma que es terriblemente buena para clonar voces y, a principios de este mes, aseguró su última ronda de $19 millones en financiamiento de un grupo de inversionistas de alto perfil.
Voice.ai intenta, en esta mezcla, posicionarse como la aplicación de edición de voz AI para Everyman.
«Il y a beaucoup d’entreprises qui essaient de fournir une saveur différente de la technologie vocale aux entreprises», a déclaré Ahrens à TechCrunch dans un e-mail (ironiquement, il n’a pas été possible d’organiser une interview en direct con él). Ahrens tiene algo de experiencia en la creación de tecnologías de inteligencia artificial B2B: sus dos empresas anteriores, iSpeech para síntesis de voz y Haystack para reconocimiento facial, se basan en ofertas de API.
«Lo que distingue a Voice.ai es que nos esforzamos por poner la tecnología que alguna vez estuvo reservada para las empresas directamente en manos de los consumidores de una manera asequible». Muchos usuarios, señaló, «vienen a nosotros desde el clásico PSD cambiadores de voz y moduladores de voz que usaron en el pasado y siguen siendo populares entre muchos jugadores y streamers.
«Asequible» viene en dos niveles, y la mayoría de los usuarios ahora disfrutan de un servicio gratuito que requiere que se registren para proporcionar poder de cómputo para entrenar los modelos de Voice.ai, su servicio se basa en su propio conjunto de datos privados compuesto por «millones de usuarios únicos». .” No se proporcionan precios en el sitio: solicitamos estos detalles.
“Creemos en la accesibilidad de la tecnología y planeamos trabajar con la comunidad de código abierto para democratizar la tecnología Voice AI”, agregó Ahrens.
Voice.ai affirme également qu’il adopte une approche fondamentalement différente du défi de changer une voix, en exploitant une partie de l’éthique qui s’est construite autour de l’utilisation des avatars par les Vtubers, les joueurs et d’autres en línea.
“La mayoría de las empresas de inteligencia artificial de voz que ingresan al espacio están tratando de crear soluciones escalables de texto a voz centradas en la empresa o costosos servicios de voz a voz para estudios de producción”, dijo Ahrens. “Partimos del espectro opuesto y tratamos de brindar valor a las personas que buscan expandir su sonido en línea. La propuesta de valor central de nuestra IA de texto a voz no es que pueda replicar perfectamente a cualquier persona. Esto se debe a que conserva los elementos centrales del discurso de un usuario: su emoción, ritmo y énfasis mientras reemplaza el sonido de la voz, para crear un nuevo resultado final completamente único, en tiempo real. »
Puede deberse a la forma en que la demografía de las plataformas interactivas como los juegos está sesgada, pero en este momento la audiencia de Voice.ai es 70 % masculina frente a 30 % femenina, y se abren nuevas categorías no solo sobre quién está usando la tecnología, sino también por qué.
Esto no solo incluye a aquellos que usan avatares y construyen voces para que coincidan, o aquellos que buscan una mayor privacidad, sino también, dijo, «usuarios transgénero que pueden representarse a sí mismos con voces que coinciden con sus identidades, así como usuarios que exploran nuevos sitios en línea». sitios personas por sí mismos.
Ya hay una base de usuarios aprovechando las ofertas directas al consumidor de Voice.ai, pero una de las razones por las que Mucker está invirtiendo en la puesta en marcha es porque cree que existe la oportunidad de crear una red de desarrolladores que usen e integren su tecnología.
«Voice.ai está preparado para revolucionar la comunidad de desarrolladores de IA de una manera similar al impacto de AdMob en la comunidad de desarrolladores de aplicaciones móviles», dijo Omar Hamoui, socio del inversionista líder Mucker Capital. (Hamoui fundó anteriormente la empresa emergente de publicidad móvil AdMob, que finalmente fue adquirida por Google, por lo que tiene experiencia directa en la creación de herramientas de desarrollo móvil). alrededor del mundo.
Karl Alomar, exdirector de operaciones de Digital Ocean, que dirigió la inversión de M13, dijo que los inversores desempeñarán un papel activo en la próxima etapa de desarrollo. «En Digital Ocean, también hemos visto valor en la construcción de una comunidad de constructor por constructor», dijo. «Estamos entusiasmados de que los creadores y desarrolladores confíen en la plataforma Voice.ai».
