Xavier ‘X’ Jernigan, la voz del DJ de Spotify, explica cómo es convertirse en una IA

Xavier ‘X’ Jernigan, la voz del DJ de Spotify, explica cómo es convertirse en una IA

En marzo, Spotify debutó con su primera función impulsada por IA con el lanzamiento de AI DJ, una guía de audio inteligente con voces convincentes y realistas. Resulta que este personaje de IA se basó en una persona real: el gerente de asociaciones culturales de Spotify, Xavier «X» Jernigan, quien tuvo el honor de convertirse en el primer modelo de voz para la función de IA.

TechCrunch habló con Jernigan para obtener más información sobre el proceso de capacitación de IA y los planes futuros de Spotify para sus esfuerzos de AI DJ.

El nuevo AI DJ personaliza la experiencia de escuchar música para los oyentes, seleccionando una selección de música basada en sus intereses. También comentó sobre cada canción, como un locutor de radio real.

Además del papel protagónico de Jernigan en Spotify, también es el presentador de varios podcasts de Spotify, incluidos «The Window», «Showstopper», así como el ahora desaparecido podcast «The Get Up». Por lo tanto, está acostumbrado a que su voz sea escuchada por millones de oyentes. Aún así, tener su voz conmemorada como una IA es una experiencia única.

Spotify eligió a Jernigan para ser el primer modelo de voz porque su «voz y personalidad ya resonaban en muchos de nuestros oyentes», dijo Jernigan a TechCrunch. «[The company was] bastante seguro de que yo también resonaría de esa manera.

El programa matutino de Spotify, «The Get Up», atrajo a casi 6 millones de oyentes y estuvo entre los 10 mejores podcasts de Spotify antes de terminar abruptamente en 2022, lo que demuestra el atractivo de Jernigan.

Aún así, ser el modelo a seguir vocal del DJ fue difícil de entender al principio, admitió el presentador del podcast.

LEER  ¿Qué sucede con los pequeños capitalistas de riesgo en un mercado conservador?

“Me ofrecieron ser este modelo de voz de DJ y quedé impresionado cuando me lo explicaron”, nos dice Jernigan. «Imagínese si está escuchando esto por primera vez, no tiene nada que ver y yo estoy como, ‘Espera, ¿qué? Voy a ser yo pero no soy yo, y es texto y la voz, pero sonará como yo, y es IA?»

«Para mí, fue una nueva experiencia trabajar con IA de esta manera. Quedé impresionado», agregó.

Spotify afirma que su AI DJ se creó utilizando tecnologías Sonantic y OpenAI.

Sonantic es una startup de inteligencia artificial que Spotify adquirió el año pasado. La tecnología de la compañía fue responsable de crear voces realistas impulsadas por IA, incluida la utilizada para la voz de Val Kilmer en «Top Gun: Maverick».

Antes de la adquisición, Spotify pasó algunos años investigando la tecnología impulsada por IA y trabajó en la función de DJ «en algunas iteraciones», señaló Jernigan. Se negó a decir exactamente cuánto tiempo tomó el proceso, pero dijo que la incorporación de la tecnología Sonantic «realmente lo puso en marcha».

Jernigan explicó el proceso de entrenamiento de la IA, que implicó entrar a un estudio, leer un guión y hablar con diferentes cadencias e inflexiones para transmitir diferentes emociones. Le dio a la IA algunas palabras que solo él usa para que sea lo más auténtico posible.

“Usamos palabras que digo… No digo ‘aires’ para canciones. Así no es como yo hablo”, dijo. “Digo, ‘hits’ o ‘bangers’. Así que escucharás a DJ decir ese tipo de palabras», continuó Jernigan. «Incluso hicimos un proceso completo como, ¿cómo digo ‘hola’, cómo digo ‘hola’? Llevaba un cuaderno y estaba escribiendo estas diferentes oraciones que estaba diciendo.

LEER  Según los informes, Apple redujo la producción de Vision Pro y retrasó el modelo más barato

Agregó que el equipo de Spotify se aseguró de mantener sus pausas y respiraciones naturales para que la voz de la IA realmente sonara como un humano.

Incluso la madre de Jernigan aprobó los resultados.

«[DJ] pasó la prueba de mamá. Se la puse antes de que saliera, se la expliqué y trato de hacerle entender”, dijo. «Ella escuchó todos mis podcasts, por lo que estaba acostumbrada a escuchar mi voz grabada y reproducida antes y dijo ‘eso suena exactamente como tú’. Mi mamá dijo que sonaba como yo, así que supe que era perfecto».

Aunque ya existen voces realistas de IA, diríamos que el DJ de Spotify es el más silencioso y genial en comparación con otros que hemos escuchado. Si bien la tecnología Duplex de Google puede sonar auténtica, no es necesariamente una voz agradable de escuchar cuando se trata de hacer vibrar su lista de reproducción de verano.

“Para mí, al hacer la actuación desde la perspectiva de la actuación de voz, mi objetivo era conectarme con la gente, conversar con la gente y pensar en una persona. Entonces, cuando estaba entrenando a la IA, solo imaginé a una persona cuando estaba en el estudio hablando con ellos y siendo su amigo”, agregó.

Además de hacer que la voz de la IA sea amigable para los oyentes, el diseño del propio DJ también se hizo para que se sintiera accesible.

El círculo verde animado que ven los usuarios cuando escuchan al DJ asiente con el logo de Spotify y se mueve como una boca cuando habla la IA.

LEER  Fidelity profundiza en la caída de valoración de Reddit y Discord

“Cuando se trata de diseño, pensamos en toda la experiencia: cómo funciona, cómo suena, cómo se ve y cómo personalizarlo para cada usuario”, dijo Emily Galloway, directora de diseño de productos para personalización en Spotify. Crujido tecnológico. «Al principio, para el lado visual, exploramos algunas opciones que parecían más técnicas (imaginar cosas como ondas de sonido). Aún así, eso no nos pareció correcto porque queríamos humanizar la IA…»

“Queríamos darle una apariencia única. De hecho, fue tan único que obtuvo una patente de diseño”, agregó Galloway.

Jernigan ha contribuido al DJ de formas distintas a la grabación de su voz.

Para que la IA proporcione comentarios musicales expertos, Spotify ha creado una sala de redacción compuesta por curadores, expertos en cultura y expertos en música.

Jernigan tiene una amplia experiencia en música, por lo que también participó en la sala de escritores. Anteriormente trabajó para artistas de renombre como Diddy, Amy Winehouse y 2 Chainz, entre otros.

Y aunque Jernigan es el principal modelo de voz para los DJ, es posible que los oyentes escuchen más voces en el futuro.

TechCrunch le preguntó a Jernigan si la compañía planea contratar modelos de voz que hablen otros idiomas.

«Estén atentos», insinuó.

AI DJ actualmente solo está disponible en inglés para suscriptores Premium en los EE. UU. y Canadá. A partir de febrero, la función de DJ todavía está en prueba beta.

«Tenemos un montón de características nuevas realmente geniales en todos los ámbitos», dijo Jernigan. «Tenemos algunas cosas realmente geniales saliendo».

Más contenidos sobre empresas en América Latina

Deja una respuesta