Denis Dimitrov vertelde in detail hoe het neurale netwerk Kandinsky Video is gemaakt, wat het werkingsprincipe en de belangrijkste functies zijn, en welke verbeteringen en nieuwe functies Kandinsky 3.0 heeft ten opzichte van Kandinsky 2.2. Tatiana Nikulina liet zien hoe je met Kandinsky 3.0 en het neurale netwerk Kandinsky Video kunt werken om animaties en video’s te genereren op basis van tekst.

Benaderingen voor het genereren van multimedia-inhoud nemen een prominente plaats in in modern onderzoek naar kunstmatige intelligentie. De afgelopen jaren hebben modellen voor het synthetiseren van afbeeldingen uit tekst resultaten van hoge kwaliteit opgeleverd.

Kandinsky Video is het eerste generatieve model in Rusland voor het maken van volwaardige video’s met behulp van tekstbeschrijvingen. Het model genereert videosequenties van maximaal acht seconden met een frequentie van 30 frames per seconde. De Kandinsky Video-architectuur bestaat uit twee sleutelblokken: de eerste is verantwoordelijk voor het creëren van sleutelframes die de structuur van de videoplot vormen, en de tweede is verantwoordelijk voor het genereren van interpolatieframes die vloeiende bewegingen in de uiteindelijke video mogelijk maken. De twee blokken zijn gebaseerd op een nieuw model van beeldsynthese op basis van tekstbeschrijvingen, Kandinsky 3.0. Het gegenereerde videoformaat is een doorlopende scène met beweging van zowel het onderwerp als de achtergrond. Het neurale netwerk maakt video’s met een resolutie van 512 x 512 pixels en verschillende beeldverhoudingen. Het model is getraind op een dataset van meer dan 300.000 tekst-videoparen. Het genereren van video’s duurt maximaal drie minuten.

Daarnaast is er een optie geïmplementeerd om geanimeerde video’s te genereren waarin dynamiek wordt bereikt door het simuleren van de passage van een camera ten opzichte van een statische scène. Eén verzoek genereert een video van vier seconden met het geselecteerde animatie-effect, met een frequentie van 24 frames per seconde en een resolutie van 640 x 640 pixels. Het synthetiseren van één seconde video duurt gemiddeld ongeveer 20 seconden. Er werden verschillende soorten beeldanimatie geïmplementeerd, waardoor het mogelijk werd om objecten te verplaatsen, dichterbij en verder weg te brengen en statische beelden op alle mogelijke manieren te animeren. De animatiemodi zijn gebaseerd op de functie van het opnieuw tekenen van een afbeelding op basis van een tekstbeschrijving (image2image). Het genereren van samengestelde scènes voor het maken van “minifilms” is ook mogelijk (u kunt maximaal 3 zoekopdrachten tegelijk invoeren).