Loading Events

Le 14 décembre, un atelier sur l’utilisation du nouveau réseau neuronal Kandinsky Video pour générer une vidéo à partir de texte aura lieu sur le site virtuel de la Maison Russe à Bruxelles.

Intervenants: Denis Dimitrov, directeur général de la science des données chez Sber AI, consultant scientifique à l’Institut d’intelligence artificielle AIRI, et Tatyana Nikulina, ingénieure en chef des invites chez Sber AI.

Les approches de génération de contenu multimédia occupent une place prépondérante dans la recherche moderne sur l’intelligence artificielle. Ainsi, ces dernières années, les modèles de synthèse d’images à partir de texte ont montré des résultats de grande qualité.

Kandinsky Video est le premier modèle génératif en Russie permettant de créer des vidéos à part entière à l’aide de descriptions textuelles. Le modèle génère des séquences vidéo d’une durée maximale de huit secondes à une fréquence de 30 images par seconde. L’architecture Kandinsky Video se compose de deux blocs clés : le premier est responsable de la création d’images clés qui forment la structure de l’intrigue vidéo, et le second est responsable de la génération d’images d’interpolation qui permettent des mouvements fluides dans la vidéo finale. Les deux blocs s’appuient sur un nouveau modèle de synthèse d’images basé sur des descriptions textuelles, Kandinsky 3.0. Le format vidéo généré est une scène continue avec mouvement du sujet et de l’arrière-plan. Le réseau neuronal crée des vidéos avec une résolution de 512 x 512 pixels et différents formats d’image. Le modèle a été formé sur un ensemble de données de plus de 300 000 paires texte-vidéo. La génération vidéo prend jusqu’à trois minutes.

De plus, une option a été implémentée pour générer des vidéos animées dans lesquelles la dynamique est obtenue en simulant le passage d’une caméra par rapport à une scène statique. Une requête génère une vidéo de quatre secondes avec l’effet d’animation sélectionné, à une fréquence de 24 images par seconde et une résolution de 640 x 640 pixels. La synthèse d’une seconde de vidéo prend en moyenne environ 20 secondes. Différents types d’animation d’images ont été implémentés, permettant de déplacer des objets, de les rapprocher et de les éloigner et d’animer des images statiques de toutes les manières possibles. Les modes d’animation sont basés sur la fonction de redessiner une image à partir d’une description textuelle (image2image). La génération de scènes composites pour créer des « mini-films » est également disponible (vous pouvez saisir jusqu’à 3 requêtes à la fois).

Denis Dimitrov expliquera en détail comment le réseau neuronal Kandinsky Vidéo a été créé, le principe de son fonctionnement et ses principales fonctionnalités, ainsi que les améliorations et nouvelles fonctionnalités qui existent désormais dans Kandinsky 3.0 par rapport à Kandinsky 2.2. Tatyana Nikulina montrera, à l’aide d’exemples spécifiques, comment travailler correctement avec le réseau neuronal Kandinsky 3.0 et Kandinsky Video pour générer des animations et des vidéos à partir de texte.

Langue : Russe/Anglais

40cd750bba9870f18aada2478b24840a40cd750bba9870f18aada2478b24840a

Aller en haut