Alibaba présente une IA capable de vous faire parler et chanter à partir d’une simple photo.
L’IA ne cesse de nous impressionner. Le groupe chinois Alibaba a récemment dévoilé son nouveau modèle d’intelligence artificielle baptisé “EMO”. Ce dernier a la capacité de donner vie à une photo avec un réalisme remarquable.
Après les deepfakes, voici une nouvelle prouesse de l’IA qui pourrait poser de sérieux problèmes. Dans un article de recherche publié le 27 février 2024, le groupe chinois Alibaba (propriétaire notamment du site de commerce électronique AliExpress) a expliqué en détail le fonctionnement de son modèle de génération de vidéos EMO, capable d’ajouter des mouvements et une voix à partir d’une simple photo.
Faire exprimer (et chanter) n’importe quel discours à n’importe qui
En utilisant un algorithme qui traduit directement l’audio reçu en mouvements faciaux, et ce, “sans avoir recours à des modèles 3D intermédiaires ou à des points de repère faciaux”, EMO est capable de faire parler ou chanter des photos avec des mouvements de tête et de lèvres incroyablement proches de la réalité.
Ainsi, en soumettant simplement une photo d’Audrey Hepburn à EMO, il devient possible de la faire chanter une chanson d’Ed Sheeran, malgré le fait que l’actrice soit décédée. Vous souhaitez voir une photo de Leonardo DiCaprio à l’âge de 20 ans rapper du Eminem ? Pas de souci. Plus impressionnant encore, le logiciel fonctionne également avec des personnages dessinés ou peints. Alibaba a même réussi à faire déclamer un monologue de Shakespeare à La Joconde, en lui donnant les expressions faciales appropriées.
Une potentielle arme de désinformation massive ? Pour entraîner EMO, les chercheurs ont constitué une base de données audio-visuelle comprenant 250 heures de contenu et 150 millions d’images, explique l’article. Les contenus audio fournissent une grande quantité d’informations sur les expressions faciales, ce qui permet théoriquement de générer une variété de mouvements faciaux, selon les ingénieurs derrière EMO. Cependant, la tâche n’est pas facile, car les modèles de diffusion peuvent parfois perdre le fil dans la retranscription des mouvements faciaux.
Certes, en examinant de près, on peut déceler quelques artefacts, et les vidéos peuvent parfois donner l’impression d’appartenir à la vallée dérangeante. Néanmoins, pour une première version du système, les résultats sont tout de même stupéfiants… et un tantinet inquiétants. La possibilité de faire dire n’importe quoi à n’importe qui en utilisant simplement une image de relativement bonne qualité pourrait être exploitée comme une arme de désinformation massive, surtout si son utilisation devient aussi aisée que celle des deepfakes actuels.