La semaine dernière, Google a dévoilé son tout dernier modèle d’intelligence artificielle (IA), Lumiere. Ce nouvel outil de génération vidéo multimodal peut créer des vidéos de 5 secondes. Il prend en charge à la fois la génération de texte vers vidéo et d’image vers vidéo, rejoignant ainsi les modèles d’IA existants tels que Runway Gen-2 et Pika 1.0. Selon Google, Lumiere utilise une architecture Space-Time U-Net (STUNet) qui révolutionne la manière dont le mouvement se produit dans une vidéo d’IA, la rendant réaliste. La plateforme n’est pas encore ouverte au public.
Innovation Majeure dans le Mouvement Vidéo
Dans un document de prépublication accompagnant Lumiere, l’équipe de recherche a expliqué que l’innovation majeure réside dans la création de la vidéo en un seul processus plutôt que d’assembler des images fixes. Ainsi, les aspects spatiaux (les objets dans la vidéo) et temporels (comment les choses se déplacent dans la vidéo) de la génération vidéo sont créés simultanément. Pour le profane, cela se traduit par la perception des mouvements comme ils se produisent dans la nature. Lumiere génère un plus grand nombre de 80 images au lieu des 25 images de Stable Diffusion.
“En déployant à la fois le rééchantillonnage spatial et (surtout) temporel vers le bas et vers le haut, et en utilisant un modèle de diffusion texte-vers-image pré-entraîné, notre modèle apprend à générer directement une vidéo basse résolution à plein débit d’images en la traitant à plusieurs échelles espace-temps”, a ajouté le document.
Fonctionnalités Impressionnantes
Bien que Google Lumiere ne puisse pas être testé pour le moment, le site est en ligne, et les passionnés peuvent consulter différentes vidéos créées à l’aide du modèle d’IA ainsi que le texte et les images utilisés en entrée pour générer la sortie. Il peut également produire des vidéos dans divers styles, des cinémagraphes permettant aux utilisateurs d’animer une partie spécifique de la vidéo, et de l’inpainting où une vidéo ou une image masquée est utilisée, et l’IA la complète en fonction de la requête.

Concurrence avec les Modèles d’IA Existant
L’outil de génération vidéo d’IA le plus récent de Google entre en concurrence avec des modèles d’IA existants tels que Runway Gen-2, lancé en mars 2023, et Pika 1.0 de Pika Lab, tous deux accessibles au public. Alors que Pika peut créer des vidéos de 3 secondes (pouvant être étendues de 4 secondes de plus), Runway peut générer des vidéos aussi longues que 4 secondes. Les deux modèles sont multimodaux et permettent également l’édition vidéo.