VALL-E, la technologie de synthรจse vocale basรฉe sur l’intelligence artificielle de Microsoft, est dรฉsormais capable de traduire votre voix dans presque toutes les langues que vous souhaitez, et sa ressemblance avec la parole humaine est vraiment spectaculaire.
La technologie de synthรจse vocale basรฉe sur l’intelligence artificielle a beaucoup รฉvoluรฉ ces derniรจres annรฉes, et le modรจle VALL-E de Microsoft est un excellent exemple de ces progrรจs. Grรขce ร sa capacitรฉ ร gรฉnรฉrer une parole humaine trรจs rรฉaliste dans une grande variรฉtรฉ de langues et d’accents, VALL-E รฉtablit une nouvelle norme pour les modรจles de synthรจse vocale.
Ce modรจle est basรฉ sur l’architecture Transformer (comme ChatGPT ou Bard), qui s’est avรฉrรฉe trรจs efficace pour une variรฉtรฉ de tรขches de traitement du langage naturel d’une maniรจre plus simple et plus rapide.
Une fois entraรฎnรฉ, il peut reproduire presque parfaitement la voix d’une personne. Il convient de noter que l’รฉquipe n’a besoin que d’un รฉchantillon audio de trois secondes pour entraรฎner le nouveau robot de Microsoft.
Cette nouvelle technologie n’est pas particuliรจrement rรฉcente, puisqu’elle a รฉtรฉ introduite en janvier 2023, mais Microsoft vient d’ajouter une nouvelle fonctionnalitรฉ ร VALL-E : la capacitรฉ de traduire votre voix dans des langues รฉtrangรจres, en exprimant des รฉmotions et des tons sans que vous ne remarquiez ร peine la diffรฉrence. Vous pouvez voir comment cela fonctionne dans l’exemple de Twitter ci-dessous.
Speaking foreign languages with your own voice + accent + emotion will soon be a reality.
Microsoft researchers recently extended VALL-E and trained a multi-lingual conditional codec language model to predict acoustic token sequences.
Sound ON ๐ pic.twitter.com/1mhoChJzcC
— Liorโก (@AlphaSignalAI) March 8, 2023
VALL-E X : dรฉsormais capable de traduire votre voix dans d’autres langues
“Nous proposons un modรจle de langage ร codec neuronal multilingue, VALL-E X, pour la synthรจse vocale multilingue. Plus prรฉcisรฉment, nous รฉtendons VALL-E et cette nouvelle fonctionnalitรฉ attรฉnue efficacement les problรจmes liรฉs aux accents รฉtrangers, qui peuvent รชtre contrรดlรฉs par l’identification de la langue”, explique Microsoft.
L’architecture Transformer, mentionnรฉe ci-dessus et ร contextualiser, est un type de rรฉseau neuronal qui s’est avรฉrรฉ trรจs efficace pour une variรฉtรฉ de tรขches de traitement du langage naturel, y compris la traduction linguistique, la modรฉlisation linguistique et le rรฉsumรฉ de texte.
VALL-E X
Il a รฉtรฉ introduit dans l’article “Attention is all you need” par Vaswani en 2017 et a depuis รฉtรฉ largement utilisรฉ dans de nombreux modรจles de pointe pour le traitement du langage naturel tels que ChatGPT ou Bard.
En plus de son efficacitรฉ et de son efficience, l’architecture Transformer peut รฉgalement รชtre facilement adaptรฉe ร un large รฉventail de tรขches. Elle convient donc parfaitement aux modรจles de traitement du langage naturel tels que VALL-E de Microsoft, qui utilise l’architecture Transformer pour gรฉnรฉrer un discours trรจs rรฉaliste, semblable ร celui d’un รชtre humain.
Au dรฉbut de l’annรฉe, Bill Gates, cofondateur de Microsoft, a dรฉclarรฉ que l’intelligence artificielle รฉtait la prochaine grande avancรฉe dans le secteur technologique et qu’elle apporterait les plus grands changements dans les annรฉes ร venir. “VALL-E X peut synthรฉtiser un discours cible personnalisรฉ tout en conservant l’รฉmotion du discours source”, expliquent-ils.
Bien entendu, les modรจles de synthรจse vocale comme celui de Microsoft sont trรจs utiles pour de nombreuses raisons, car ils peuvent รชtre utilisรฉs pour gรฉnรฉrer une parole ou une conversation naturelle ร partir d’un texte et, si vous ajoutez maintenant la possibilitรฉ de traduire cette parole dans d’autres langues, leurs capacitรฉs deviennent encore plus utiles.