VALL-E, la technologie de synthèse vocale basée sur l’intelligence artificielle de Microsoft, est désormais capable de traduire votre voix dans presque toutes les langues que vous souhaitez, et sa ressemblance avec la parole humaine est vraiment spectaculaire.
La technologie de synthèse vocale basée sur l’intelligence artificielle a beaucoup évolué ces dernières années, et le modèle VALL-E de Microsoft est un excellent exemple de ces progrès. Grâce à sa capacité à générer une parole humaine très réaliste dans une grande variété de langues et d’accents, VALL-E établit une nouvelle norme pour les modèles de synthèse vocale.
Ce modèle est basé sur l’architecture Transformer (comme ChatGPT ou Bard), qui s’est avérée très efficace pour une variété de tâches de traitement du langage naturel d’une manière plus simple et plus rapide.
Une fois entraîné, il peut reproduire presque parfaitement la voix d’une personne. Il convient de noter que l’équipe n’a besoin que d’un échantillon audio de trois secondes pour entraîner le nouveau robot de Microsoft.
Cette nouvelle technologie n’est pas particulièrement récente, puisqu’elle a été introduite en janvier 2023, mais Microsoft vient d’ajouter une nouvelle fonctionnalité à VALL-E : la capacité de traduire votre voix dans des langues étrangères, en exprimant des émotions et des tons sans que vous ne remarquiez à peine la différence. Vous pouvez voir comment cela fonctionne dans l’exemple de Twitter ci-dessous.
Speaking foreign languages with your own voice + accent + emotion will soon be a reality.
Microsoft researchers recently extended VALL-E and trained a multi-lingual conditional codec language model to predict acoustic token sequences.
Sound ON 🔊 pic.twitter.com/1mhoChJzcC
— Lior⚡ (@AlphaSignalAI) March 8, 2023
VALL-E X : désormais capable de traduire votre voix dans d’autres langues
“Nous proposons un modèle de langage à codec neuronal multilingue, VALL-E X, pour la synthèse vocale multilingue. Plus précisément, nous étendons VALL-E et cette nouvelle fonctionnalité atténue efficacement les problèmes liés aux accents étrangers, qui peuvent être contrôlés par l’identification de la langue”, explique Microsoft.
L’architecture Transformer, mentionnée ci-dessus et à contextualiser, est un type de réseau neuronal qui s’est avéré très efficace pour une variété de tâches de traitement du langage naturel, y compris la traduction linguistique, la modélisation linguistique et le résumé de texte.
VALL-E X
Il a été introduit dans l’article “Attention is all you need” par Vaswani en 2017 et a depuis été largement utilisé dans de nombreux modèles de pointe pour le traitement du langage naturel tels que ChatGPT ou Bard.
En plus de son efficacité et de son efficience, l’architecture Transformer peut également être facilement adaptée à un large éventail de tâches. Elle convient donc parfaitement aux modèles de traitement du langage naturel tels que VALL-E de Microsoft, qui utilise l’architecture Transformer pour générer un discours très réaliste, semblable à celui d’un être humain.
Au début de l’année, Bill Gates, cofondateur de Microsoft, a déclaré que l’intelligence artificielle était la prochaine grande avancée dans le secteur technologique et qu’elle apporterait les plus grands changements dans les années à venir. “VALL-E X peut synthétiser un discours cible personnalisé tout en conservant l’émotion du discours source”, expliquent-ils.
Bien entendu, les modèles de synthèse vocale comme celui de Microsoft sont très utiles pour de nombreuses raisons, car ils peuvent être utilisés pour générer une parole ou une conversation naturelle à partir d’un texte et, si vous ajoutez maintenant la possibilité de traduire cette parole dans d’autres langues, leurs capacités deviennent encore plus utiles.