14 декабря на виртуальной площадке Русского дома в Брюсселе состоялся мастер-класс по использованию новой нейронной сети Kandinsky Video для генерации видео по тексту.

Денис Димитров подробно рассказал о том, как создавалась нейросеть Kandinsky Video, о принципе её работы и ключевых особенностях, а также о том, какие улучшения и новые фишки теперь есть в Kandinsky 3.0 по сравнению с Kandinsky 2.2. Татьяна Никулина показала на конкретных примерах, как правильно работать с нейросетью Kandinsky 3.0 и Kandinsky Video для генерации анимаций и видео по тексту.

Подходы к генерации мультимедийного контента занимают видное место в современных исследованиях искусственного интеллекта. Так за последние несколько лет модели синтеза изображений по тексту показали высококачественные результаты.

Kandinsky Video — первая в России генеративная модель для создания полноценных видеороликов по текстовому описанию. Модель генерирует видеоряд продолжительностью до восьми секунд с частотой 30 кадров в секунду. Архитектура Kandinsky Video состоит из двух ключевых блоков: первый отвечает за создание ключевых кадров, из которых складывается структура сюжета видео, а второй — за генерацию интерполяционных кадров, которые позволяют достичь плавности движений в финальном видео. В основе двух блоков лежит новая модель синтеза изображений по текстовым описаниям Kandinsky 3.0. Формат сгенерированного видео представляет собой непрерывную сцену с движением как объекта, так и фона. Нейросеть создаёт видеоролики с разрешением 512 х 512 пикселей и различным соотношением сторон. Модель обучена на датасете из более чем 300 тыс. пар «текст — видео». Генерация видео занимает до трёх минут.

Кроме того, реализована опция генерации анимационных видеороликов, в которых динамика достигается за счёт моделирования пролёта камеры относительно статичной сцены. По одному запросу генерируется видео длиной в четыре секунды c выбранным эффектом анимации, с частотой 24 кадра в секунду и разрешением 640 x 640 пикселей. Синтез одной секунды видео в среднем занимает около 20 секунд. Были реализованы разные виды анимации изображений, что позволило перемещать объекты, приближать и отдалять их, оживлять статику всеми возможными способами. В основе режимов анимации лежит функция перерисовки изображения по текстовому описанию (image2image). Также доступна генерация составных сцен для создания «мини-фильмов» (можно вводить сразу до 3 запросов).