-
Google a créé une intelligence artificielle qui parle (presque) comme un humain
Après avoir fait l’étalage de sa puissance dans le domaine du jeu de go, l’IA de Google montre aujourd’hui sa puissance dans le domaine de la synthèse vocale.
La filiale spécialisée dans l’intelligence artificielle de Google, Deepmind, s’est faite connaître du grand public après ses victoires contre les maîtres de go, un jeu qui restait jusque-là théoriquement hors de portée des ordinateurs. Deepmind frappe aujourd’hui dans un autre domaine : celui de la synthèse vocale.
Par le biais de WaveNet, une application qui s’appuie sur la puissance de Deepmind, Google a démontré qu’il est désormais possible à un système informatisé de générer des sons – et donc des phrases – humaines sans l’aide de ses créateurs.
Des sons générés à la volée
La plus grande surprise technique, c’est que Deepmind ne s’appuie sur aucune bibliothèque de son. Contrairement à votre GPS, Siri ou Cortana qui enchaînent les sons pré-enregistrés par des humains – « Après-le-rond-point-tournez-à-droite » (synthèse de parole par concaténation) ou la synthèse vocale historique de Windows (modélisation paramétrique), WaveNet génère des sons à partir de ce qu’il a « entendu » auparavant. S’il a donc bien besoin de l’homme, ce n’est plus pour lui fournir toute sa gamme de mots, mais uniquement pour apprendre comment parler.
Et le résultat est plus que bluffant : sur ces graphiques qui montrent comment des auditeurs ont classés le naturel des voix écoutées – voix artificielles par concaténation, paramétrique, Google WaveNet et une voix humaine – l’écart entre la voix humaine et WaveNet n’est pas très large et le rendu de ce dernier est bien supérieur à toutes les techniques précédemment employées.
Imitateur de génie
L’une des limites de la synthèse de parole par concaténation est qu’il faut une bibliothèque de sons pour un type de voix. C’est ainsi que de nombreux GPS proposent de télécharger des « kits » de voix, masculine, féminine, imitation de personnages célèbres, etc. Contrairement à cette technique qui impose de passer par la case enregistrement à chaque fois qu’on souhaite une nouvelle voix, WaveNet ne demande qu’à apprendre un nouveau timbre et un nouveau phrasé. Ou comment DeepMind/Wavenet pourrait devenir le plus grand imitateur de tous les temps. Une capacité qui rappelle un peu une célèbre scène du film Terminator 2…
Cerise technique sur le gâteau, outre la voix WaveNet est aussi à même de simuler les instruments de musique tels que le piano, un défi qui serait bien inférieur à celui de reproduire la voix de l’homme. Qui peut le plus peut le moins, en somme.
Le son, pas (encore) le contenu
WaveNet ne s’intéresse pas encore au contenu mais uniquement à la génération du son : il est donc tributaire d’un autre programme pour la production de la structure des phrases. Compte tenu des précédentes démonstrations, il est très probable que Google « migre » rapidement la partie linguistique à proprement parler sur Deepmind dès qu’il en aura l’occasion.
Quant à l’arrivée d’une telle technologie sur nos téléphones, si c’est évidemment au programme, elle requiert pour l’heure trop de puissance de calcul pour être disponible sur le téléphone de Mr et Mme Toutlemonde. Mais vu les progrès réalisés, il s’agit sans doute plus une affaire d’années (de mois ?) que de décennies.
Atlas HD100 et 200 V B118/134 F400/F401./GN2000HD PLUS v1.88
TV Android Iris55'/.TV Condor 32"/ TV samsung 40' serie6/pc amd./ pc LG/tablette samsung GT./Condor obsolète
Appli iptv :Pzefect player et Iptv extreme serveur magsat
Abonnez vous à nos pages facebook et twitter
-
Re : Google a créé une intelligence artificielle qui parle (presque) comme un humain
Google crée une voix presque humaine

Bien qu’ayant connu d’importantes améliorations ces dernières années, les voix synthétiques des GPS ou des assistants vocaux comme Siri restent relativement hachées et sonnent « robotiques » : impossible de les confondre avec la voix humaine. Mais cela pourrait bien changer. Jeudi 8 septembre, l’entreprise d’intelligence artificielle DeepMind, rachetée par Google en 2014, a présenté sur son site Wavenet, une nouvelle technologie permettant de générer une voix quasiment identique à celle des humains.
Jusqu’à présent, les voix synthétiques étaient fabriquées de deux manières. La première consistait à enregistrer la voix d’une personne prononçant des milliers de mots, et d’assembler ces sons pour créer des phrases. La seconde simule une voix de manière 100 % synthétique.
Analyse du spectre sonore
DeepMind a suivi un autre chemin, en se basant sur le « deep learning », une méthode d’apprentissage des machines qui a déjà donné d’impressionnants résultats dans d’autres domaines. Elle a « entraîné » son programme en lui fournissant une gigantesque base de données de mots prononcés par un humain, dont il a analysé le spectre sonore. Il en a tiré la capacité de créer par lui-même de nouveaux spectres sonores, et donc de nouveaux sons. Il suffit ensuite de lui fournir le texte à prononcer pour que le système fonctionne. Voici à quoi ressemble la voix synthétique créée par Wavenet :
Le résultat est encore imparfait, puisqu’il est toujours possible de distinguer la voix de Wavenet de celle d’un humain. Mais celle-ci est beaucoup plus fluide et réaliste que celles auxquelles nous avons été habitués, et marque un progrès notable dans ce domaine. Cet outil prend aussi en compte les respirations. Reste à voir s’il se montrera aussi performant en dehors des exemples que DeepMind choisit soigneusement d’exposer sur son site.
Bien qu’ayant connu d’importantes améliorations ces dernières années, les voix synthétiques des GPS ou des assistants vocaux comme Siri restent relativement hachées et sonnent « robotiques » : impossible de les confondre avec la voix humaine. Mais cela pourrait bien changer. Jeudi 8 septembre, l’entreprise d’intelligence artificielle DeepMind, rachetée par Google en 2014, a présenté sur son site Wavenet, une nouvelle technologie permettant de générer une voix quasiment identique à celle des humains.
Jusqu’à présent, les voix synthétiques étaient fabriquées de deux manières. La première consistait à enregistrer la voix d’une personne prononçant des milliers de mots, et d’assembler ces sons pour créer des phrases. La seconde simule une voix de manière 100 % synthétique.
Atlas HD100 et 200 V B118/134 F400/F401./GN2000HD PLUS v1.88
TV Android Iris55'/.TV Condor 32"/ TV samsung 40' serie6/pc amd./ pc LG/tablette samsung GT./Condor obsolète
Appli iptv :Pzefect player et Iptv extreme serveur magsat
Abonnez vous à nos pages facebook et twitter
Règles de messages
- Vous ne pouvez pas créer de nouvelles discussions
- Vous ne pouvez pas envoyer des réponses
- Vous ne pouvez pas envoyer des pièces jointes
- Vous ne pouvez pas modifier vos messages
-
Règles du forum