Les chercheurs de Microsoft ont dévoilé VALL-E, une intelligence artificielle capable de synthétiser la voix de n’importe quelle personne après l’avoir entendue pendant seulement trois secondes. Le résultat est aussi impressionnant qu’inquiétant.
En synthétisant la voix d’un humain après l’avoir entendu, l’IA de Microsoft peut « parler à sa place » tout en préservant la tonalité, les émotions et l’environnement sonore de la personne. Les créateurs de VALL-E restent cependant prudents.
Plus besoin de parler, l’IA le fait pour vous
Chez Microsoft, VALL-E est qualifié de « modèle de langage de codec neuronal ». L’IA est un modèle de synthèse vocale capable de générer des paroles. Cela n’a rien d’inédit, mais VALL-E se distingue par sa rapidité d’apprentissage – il lui suffit de trois secondes – et sa capacité à répliquer les émotions de la personne qui parle. Autre élément de différenciation de l’intelligence artificielle : créer un enregistrement de mots et de phrases que l’orateur n’a jamais prononcés.
Pour y parvenir, l’intelligence artificielle a été entraînée sur plus de 60 000 heures de données vocales en anglais prononcées par plus de 7 000 locuteurs lisant des livres audio gratuits du domaine public disponibles sur LibriVox.
Les extraits partagés par Microsoft sur Github sont divisés en quatre colonnes. La première, « Speaker Prompt », est l’audio de trois secondes que doit imiter VALL-E. Le deuxième, « Ground Truth », est un enregistrement préexistant du même locuteur afin de pouvoir le comparer. Le troisième, « Baseline », est un exemple de synthèse vocale conventionnelle. Enfin, « VALL-E » est l’extrait prononcé par l’IA de Microsoft.