Avec Lumiere, Google révolutionne la génération de vidéos par l’IA

Lumiere AI : le nouvel outil de Google spécialisé dans la création ou la modification de vidéos

L’intelligence artificielle (IA) n’a pas fini de nous impressionner ! Depuis quelques mois, des nouveautés toujours plus innovantes sont développées régulièrement par les acteurs du secteur. Il y a notamment eu Gemini de Google en décembre 2023, et Custom GPT d’OpenAI, auxquels nous avons d’ailleurs consacré deux articles sur notre blog.

Aujourd’hui, c’est une nouvelle fois au tour de Google de nous faire découvrir sa dernière innovation boostée à l’IA. Il s’agit de Lumiere, un outil de création de vidéos épatant, que l’on doit à Google Research, la branche de recherche et développement du géant du web en matière d’IA.

Présenté sur un site Internet, cet outil – qui n’est actuellement qu’un projet – réserve de très belles surprises à ses futurs utilisateurs. En effet, les vidéos de démonstration mises en ligne donnent un aperçu de ses capacités, qui sont impressionnantes et dépassent celles des outils disponibles à ce jour, tel Photoshop. La sortie de Lumiere IA est donc attendue avec impatience mais pour l’heure, aucune date n’a été indiquée par Google Research.

Pour patienter, nous vous proposons de découvrir le fonctionnement et les capacités de cet outil révolutionnaire.

Comment fonctionne cette IA ? Quelles sont ses capacités ?

Lumiere est un modèle d’IA conçu par Google Research, qui avait participé au développement de WALT, une intelligence artificielle de génération de vidéos mise au point par des chercheurs de l’université de Stanford (au sud de San-Francisco). Dévoilé fin décembre 2023, WALT impressionnait par ses performances, sans égaler pour autant Runway ou Pika Labs, deux autres IA génératrices de vidéos. Pour se distinguer de ces outils, les équipes de Google Research ont opté pour une approche innovante.

Ainsi, Lumiere repose sur Space-Time-U-Net (STUNet), un modèle utilisant une technologie très avancée.

Un modèle innovant créé par Google Research

La génération de vidéos implique deux dimensions : temporelle et spatiale. Cela signifie qu’un modèle d’IA doit à la fois :

  • générer chaque pixel correctement ;
  • prédire son évolution afin de veiller à la fluidité et la cohérence d’une vidéo.

Une tâche plus compliquée que la génération d’images donc. Pour atteindre un tel résultat, Google Research a développé un nouveau modèle d’IA, Space-Time-U-Net (STUNet), capable de comprendre :

  • où se situent les éléments d’une vidéo ;
  • la manière dont ils se déplacent, évoluent.

Concrètement, avec STUNet, une IA peut générer une première image, puis ses mouvements en se référant aux lieux approximatifs où vont les éléments. Sa gestion simultanée des éléments et de leur mouvement lui permet de créer, en une seule fois, une vidéo du début à la fin.

Les équipes de Google Research ont donc réussi à relever un défi de taille, comme elles l’expliquent dans un document de recherche publié sur Internet : la création de « mouvements réalistes, diversifiés et cohérents ».

Qu’est-ce que Lumiere peut faire ?

Lumiere est une IA spécialisée dans la génération et la modification de vidéos. A partir d’un simple prompt textuel (une requête) ou d’une image, elle peut créer une vidéo au format 1024×1024 et d’une durée de 5 secondes (16 images par seconde). On est donc à des années-lumière du court-métrage ou long-métrage, et on ne peut pas nier le côté parfois artificiel des vidéos, mais le résultat reste impressionnant, et réaliste. D’autant que les équipes de Google Research n’ont pas fini de travailler sur cet outil.

A ce jour, Lumiere est par exemple en capacité :

  • d’animer des parties d’une image statique pour la transformer en cinémagraphe;
  • de générer des parties manquantes ou endommagées d’une vidéo ;
  • modifier de manière dynamique les personnes (leurs vêtements par ex) et objets qui apparaissent.

Plusieurs exemples sont présentés sur le site dédié à cet outil, qui nous donnent une idée de ses capacités et performances.

Lumiere, l’outil de création de vidéos le plus avancé actuellement

A la différence des autres technologies disponibles, les vidéos générées par Lumiere sont fluides. Les séquences hachées et anomalies sont évitées. Cela se traduit par une expérience de visionnage bien meilleure, et rend les vidéos exploitables.

Ainsi, avec Lumiere, Google s’impose sur ce terrain, où on ne l’attendait pas forcément. En effet, le géant du web a accumulé un peu de retard en matière de génération d’images. Il s’est fait devancer par d’autres acteurs (OpenAI en tête), qui ont sorti des outils très performants tels DALL-E, Midjourney ou Stable Diffusion. Mais avec Lumiere, il a rattrapé son retard, et se positionne désormais en première place bien que, rappelons-le, cette IA soit encore en phase de développement.

Cette publication peut vous intéresser : Les meilleurs outils pour générer des images par IA

Pour cet outil, les chercheurs de Google ont innové en introduisant « une architecture U-Net spatio-temporelle qui génère toute la durée temporelle de la vidéo en une seule fois, par un seul passage dans le modèle ». Une différence avec les autres modèles existants, qui améliore la cohérence globale des vidéos et leur donne un aspect réaliste.

Cependant, le caractère novateur de Lumiere pose une question. En générant des vidéos fluides et réalistes, ne risque-t-il pas de favoriser la diffusion massive de deepfakes ? (Les deepfakes sont des vidéos créées par des IA, qui font dire ou faire des choses à des personnes, alors qu’elles ne les ont jamais dites ou faites). Pour l’instant, l’outil n’est pas public, donc cela règle le problème des deepfakes. Mais la question demeure, d’autant que Google reconnaît s’inquiéter des risques « d’utilisation abusive pour créer des contenus faux ou nuisibles ».

Une innovation toujours en cours de recherche et développement

En ce début d’année 2024, Lumiere n’est pas disponible en ligne. Cette IA n’est utilisée dans aucun outil de Google, et aucune version beta n’est pour l’instant proposée. Pour estimer ses capacités, seuls des démonstrations, une vidéo et des documents de recherche ont été rendus publics sur Internet.

Cet outil reste donc un projet de recherche, que Google a tout de même tenu à dévoiler. Un moyen de prévenir ses concurrents ? De nous rappeler qu’il reste le géant du web et qu’il n’entend pas se laisser dépasser d’autres ? Ou voulait-il partager le travail et la prouesse de ses équipes ? Mystère…

En revanche, Google a été transparent en disant qu’il ne préférait pas mettre cette IA à disposition du grand public pour le moment, de peur des utilisations abusives. Mais on ne peut s’empêcher de penser qu’elle n’a pas été présentée sans raison. Sous quelle forme sera-t-elle disponible ? Qui pourra en bénéficier ? A quel prix ? Comment contrôler ses usages pour éviter des abus (deepfakes notamment) ? Une fois encore, nous n’avons pas les réponses. Il est probable que Google ne les ait pas non plus, d’où cette simple présentation de Lumiere, sans évoquer de version bêta ou publique. Il faudra donc faire preuve de patience avant de pouvoir tester cette IA génératrice de vidéos.   

Facebook
Twitter
LinkedIn