Le 14 décembre, la plateforme virtuelle de la Maison de la Russie à Bruxelles a accueilli une classe de maître sur l’utilisation du nouveau réseau neuronal Kandinsky Video pour générer de la vidéo à partir de texte.
Denis Dimitrov a expliqué en détail comment le réseau neuronal Kandinsky Video a été créé, son principe de fonctionnement et ses principales caractéristiques, ainsi que les améliorations et les nouvelles fonctionnalités de Kandinsky 3.0 par rapport à Kandinsky 2.2. Tatiana Nikulina a montré, à l’aide d’exemples concrets, comment utiliser Kandinsky 3.0 et le réseau neuronal Kandinsky Video pour générer des animations et des vidéos à partir d’un texte.
Les approches de génération de contenu multimédia occupent une place prépondérante dans la recherche moderne sur l’intelligence artificielle. Ainsi, ces dernières années, les modèles de synthèse d’images à partir de texte ont montré des résultats de grande qualité.
Kandinsky Video est le premier modèle génératif en Russie permettant de créer des vidéos à part entière à l’aide de descriptions textuelles. Le modèle génère des séquences vidéo d’une durée maximale de huit secondes à une fréquence de 30 images par seconde. L’architecture Kandinsky Video se compose de deux blocs clés : le premier est responsable de la création d’images clés qui forment la structure de l’intrigue vidéo, et le second est responsable de la génération d’images d’interpolation qui permettent des mouvements fluides dans la vidéo finale. Les deux blocs s’appuient sur un nouveau modèle de synthèse d’images basé sur des descriptions textuelles, Kandinsky 3.0. Le format vidéo généré est une scène continue avec mouvement du sujet et de l’arrière-plan. Le réseau neuronal crée des vidéos avec une résolution de 512 x 512 pixels et différents formats d’image. Le modèle a été formé sur un ensemble de données de plus de 300 000 paires texte-vidéo. La génération vidéo prend jusqu’à trois minutes.
De plus, une option a été implémentée pour générer des vidéos animées dans lesquelles la dynamique est obtenue en simulant le passage d’une caméra par rapport à une scène statique. Une requête génère une vidéo de quatre secondes avec l’effet d’animation sélectionné, à une fréquence de 24 images par seconde et une résolution de 640 x 640 pixels. La synthèse d’une seconde de vidéo prend en moyenne environ 20 secondes. Différents types d’animation d’images ont été implémentés, permettant de déplacer des objets, de les rapprocher et de les éloigner et d’animer des images statiques de toutes les manières possibles. Les modes d’animation sont basés sur la fonction de redessiner une image à partir d’une description textuelle (image2image). La génération de scènes composites pour créer des « mini-films » est également disponible (vous pouvez saisir jusqu’à 3 requêtes à la fois).