Laden Evenementen

Op 14 december zal op de virtuele locatie van het Russian House in Brussel een workshop worden gehouden over het gebruik van het nieuwe Kandinsky Video neurale netwerk om video uit tekst te genereren.

Sprekers: Denis Dimitrov, managing director voor data science bij Sber AI, wetenschappelijk adviseur bij het Institute of Artificial Intelligence AIRI, en Tatyana Nikulina, hoofdpromptingenieur bij Sber AI.

Benaderingen voor het genereren van multimedia-inhoud nemen een prominente plaats in in modern onderzoek naar kunstmatige intelligentie. De afgelopen jaren hebben modellen voor het synthetiseren van afbeeldingen uit tekst resultaten van hoge kwaliteit opgeleverd.

Kandinsky Video is het eerste generatieve model in Rusland voor het maken van volwaardige video’s met behulp van tekstbeschrijvingen. Het model genereert videosequenties van maximaal acht seconden met een frequentie van 30 frames per seconde. De Kandinsky Video-architectuur bestaat uit twee sleutelblokken: de eerste is verantwoordelijk voor het creëren van sleutelframes die de structuur van de videoplot vormen, en de tweede is verantwoordelijk voor het genereren van interpolatieframes die vloeiende bewegingen in de uiteindelijke video mogelijk maken. De twee blokken zijn gebaseerd op een nieuw model van beeldsynthese op basis van tekstbeschrijvingen, Kandinsky 3.0. Het gegenereerde videoformaat is een doorlopende scène met beweging van zowel het onderwerp als de achtergrond. Het neurale netwerk maakt video’s met een resolutie van 512 x 512 pixels en verschillende beeldverhoudingen. Het model is getraind op een dataset van meer dan 300.000 tekst-videoparen. Het genereren van video’s duurt maximaal drie minuten.

Daarnaast is er een optie geïmplementeerd om geanimeerde video’s te genereren waarin dynamiek wordt bereikt door het simuleren van de passage van een camera ten opzichte van een statische scène. Eén verzoek genereert een video van vier seconden met het geselecteerde animatie-effect, met een frequentie van 24 frames per seconde en een resolutie van 640 x 640 pixels. Het synthetiseren van één seconde video duurt gemiddeld ongeveer 20 seconden. Er werden verschillende soorten beeldanimatie geïmplementeerd, waardoor het mogelijk werd om objecten te verplaatsen, dichterbij en verder weg te brengen en statische beelden op alle mogelijke manieren te animeren. De animatiemodi zijn gebaseerd op de functie van het opnieuw tekenen van een afbeelding op basis van een tekstbeschrijving (image2image). Het genereren van samengestelde scènes voor het maken van “minifilms” is ook mogelijk (u kunt maximaal 3 zoekopdrachten tegelijk invoeren).

Denis Dimitrov zal in detail vertellen hoe het Kandinsky Video neurale netwerk tot stand is gekomen, het principe van de werking en de belangrijkste kenmerken ervan, en welke verbeteringen en nieuwe functies er nu zijn in Kandinsky 3.0 vergeleken met Kandinsky 2.2. Tatyana Nikulina zal met specifieke voorbeelden laten zien hoe je correct kunt werken met het Kandinsky 3.0 neurale netwerk en Kandinsky Video om animaties en video’s uit tekst te genereren.

Taal: Russisch/Engels

40cd750bba9870f18aada2478b24840a40cd750bba9870f18aada2478b24840a

Ga naar de bovenkant