21, ул. Меридиен, 1210, Брюссель, Бельгия

Русский дом в Брюсселе

Loading Events

14 декабря на виртуальной площадке Русского дома в Брюсселе состоится мастер-класс по использованию новой нейронной сети Kandinsky Video для генерации видео по тексту.

Спикеры: Денис Димитров, управляющий директор по исследованию данных Sber AI, научный консультант Института искусственного интеллекта AIRI, и Татьяна Никулина, главный инженер по составлению промптов Sber AI.

Подходы к генерации мультимедийного контента занимают видное место в современных исследованиях искусственного интеллекта. Так за последние несколько лет модели синтеза изображений по тексту показали высококачественные результаты.

Kandinsky Video — первая в России генеративная модель для создания полноценных видеороликов по текстовому описанию. Модель генерирует видеоряд продолжительностью до восьми секунд с частотой 30 кадров в секунду. Архитектура Kandinsky Video состоит из двух ключевых блоков: первый отвечает за создание ключевых кадров, из которых складывается структура сюжета видео, а второй — за генерацию интерполяционных кадров, которые позволяют достичь плавности движений в финальном видео. В основе двух блоков лежит новая модель синтеза изображений по текстовым описаниям Kandinsky 3.0. Формат сгенерированного видео представляет собой непрерывную сцену с движением как объекта, так и фона. Нейросеть создаёт видеоролики с разрешением 512 х 512 пикселей и различным соотношением сторон. Модель обучена на датасете из более чем 300 тыс. пар «текст — видео». Генерация видео занимает до трёх минут.

Кроме того, реализована опция генерации анимационных видеороликов, в которых динамика достигается за счёт моделирования пролёта камеры относительно статичной сцены. По одному запросу генерируется видео длиной в четыре секунды c выбранным эффектом анимации, с частотой 24 кадра в секунду и разрешением 640 x 640 пикселей. Синтез одной секунды видео в среднем занимает около 20 секунд. Были реализованы разные виды анимации изображений, что позволило перемещать объекты, приближать и отдалять их, оживлять статику всеми возможными способами. В основе режимов анимации лежит функция перерисовки изображения по текстовому описанию (image2image). Также доступна генерация составных сцен для создания «мини-фильмов» (можно вводить сразу до 3 запросов).

Денис Димитров подробно расскажет о том, как создавалась нейросеть Kandinsky Video, о принципе её работы и ключевых особенностях, а также о том, какие улучшения и новые фишки теперь есть в Kandinsky 3.0 по сравнению с Kandinsky 2.2. Татьяна Никулина покажет на конкретных примерах, как правильно работать с нейросетью Kandinsky 3.0 и Kandinsky Video для генерации анимаций и видео по тексту.

Язык: русский/английский

40cd750bba9870f18aada2478b24840a40cd750bba9870f18aada2478b24840a

Go to Top