Кандинский 3.0 нейросеть для генерации изображений и видео

Обзор российской нейросети от Сбера для создания реалистичных изображений и видео на русском языке

Главное отличие этой нейронной сети — способность работать с русским языком и рисовать изображения, максимально приближенные к настоящей фотографии. Пользователь может описать желаемое изображение, указать стиль, дополнить его деталями. Кроме того, нейросеть способна создавать небольшие анимационные видео. В отличие от других подобных сервисов, Kandinsky 3.0 отлично распознаёт русские запросы и учитывает их при формировании изображений.

Что умеет нейросеть Kandinsky 3.0?

Сбер усовершенствовал технологическую платформу, улучшив качество сгенерированных изображений. Хотя Kandinsky умело производил художественные работы, к тому времени зарубежные сервисы Midjourney и Stable Diffusion уже достигли уровня фотореалистичных изображений. В 2024 было представлено следующее обновление Kandinsky v3.0, которое отмечается способностью к созданию реалистичных фото и генерации видео.

Несмотря на схожий принцип работы с конкурентами, Kandinsky отличается поддержкой не только русского языка, но и более чем 100 языков, в то время как многие другие сервисы, ориентированы в основном на англоязычную аудиторию. Но, исключением можно считать нейронную сеть Dall-E 3, демонстрирующая высокую эффективность при работе с русским языком.

Нейронная сеть «Кандинский 3.0» обладает шестью ключевыми функциями:

Генерация изображений по тексту. Это базовая опция: введите описание, и она создаст визуальное воплощение вашей мечты.
Синтез изображений. Можно объединить 2 разных изображения, и система предоставит их уникальный объединенный вариант.
Изменение изображения. Подставив исходное фото/картинку, и выбрав желаемую стилистику, вы сможете увидеть оригинальное изображение в новом обличии.
Дополнение изображения. Этот режим еще называется outpainting. Вы можете предоставить фото/картинку и попросить нейронную сеть добавить к ней новые детали, расширяя перспективу за пределами видимого.
Перенос стиля. Этот функционал эквивалентен плагину ControlNet (от Stable Diffusion), позволяет перенести позу или контуры из одного изображения на созданное нейросетью
Создание видео. Она способна генерировать 4-х секундные гифки, комбинируемые в короткий видеоролик.

Как протестировать Кандинский 3.0?

Вы можете ознакомиться с работой нейросети:

На официальном ресурсе https://fusionbrain.ai/diffusion , являющейся тестовым пространством для команды «Кандинского», вы сможете создавать картинки на основе русских промтов и экспериментировать с режимом дополнения картинок. При тестировании сервис не смог создать изображение!
В ТГ-боте, http://t.me/kandinsky21_bot , имеется 4 различных режима создания фото, но возможности дополнения изображений здесь отсутствуют. Однако, используя бота через мобильное приложение Telegram, вы сможете создавать стикеры для использования в мессенджер.
На веб-ресурсе https://rudalle.ru/kandinsky22 , представляет собой начальную версию данной нейросети, где доступна лишь генерация картинок на основе текстовых промтов.
Навык «Включи художника» в ассистенте «Салют».
В боте в социальной сети «ВК», https://vk.me/kandinskiy_bot , можно создавать картинки по текстовому описанию.
В ТГ-боте https://t.me/video_kandinsky_bot , доступен по предварительным заявкам и не для каждого

Телеграм-бот - самый удобный путь для использования нейросети, так как он не требует платной подписки, обеспечивает быструю генерацию изображений и поддерживает все необходимые режимы работы.

Важно! На просторах «Телеграм» присутствуют боты других нейронных сетей, следует быть осторожным, поскольку некоторые из них могут быть созданы мошенниками. В отличие от них, мы представляем ссылки только официальных источников.

Не исключено, что представленные официальные сервисы могут некорректно работать из-за временных ошибок. В Сбере говорят, что это происходит из-за нагрузки на сервис.

Как создавать изображения в Кандинском?

Кандинский работает через сайт Fusionbrainю.AI. На момент написания статьи этот сервис не смог обработать запрос и создать изображение. Официальный сайт выдавал стандартное сообщение о подготовке, но так и не создал картинку.

Поэтому рекомендуем воспользоваться телеграм ботом. Пользователь может указать свой стиль в запросе, хотя и с меньшим уровнем понимания со стороны искусственного интеллекта. На данный момент предлагается 4 основных варианта стилизации:

Цифровая живопись
Детальное фото
Аниме
Без стиля

В боте для ВК стиль выбора не предусмотрен, доступно лишь введение описания и определение соотношения сторон картинки: 1:1, 2:3 или 3:2.

Большинство стилей оказываются эффективными, однако порой требуется несколько попыток для достижения нужного результата. В текстовых запросах вы имеете возможность самостоятельно вводить стилистические элементы, если они отсутствуют в предопределенном списке, выбрав опцию «Без стиля».

Вы можете не только описать, что желаете увидеть на изображении, используя «Промпт», но и указать, что на ней не должно быть — на вкладке «Негативный промпт». Она доступна и в Telegram: просто выберите необходимый пункт меню.

Использование эмодзи в промтах допускается, однако не все из них корректно распознаются нейросетью. По каким закономерностям она это делает неизвестно.

Картинки создаются в следующих разрешениях: 1:1 (1024 × 1024 пикселей), 2:3 (680 × 1024), 3:2 (1024 × 680), 9:16 (576 × 1024) и 16:9 (1024 × 576).

Функция редактирования уже созданного изображения представляет собой уникальную возможность. Пользователь может использовать инструмент «ластик» для выделения участка, который необходимо изменить, после чего надо нажать «Создать» для обновления картинки.

Я заметил, что использование этой функции дает возможность несколько раз менять одежду персонажа, и искусственный интеллект отлично обрабатывает изменения по контуру, не нарушая само изображения. Этот инструмент оказывается крайне полезным. Воспользоваться им можно исключительно на официальном сайте.

Дорисовывание — это уникальная функция, доступная не на каждом веб-ресурсе. Процесс таков: вы создаете/загружаете картинку, после чего уменьшаете ее размеры так, чтобы область для дополнения превышала ее размеры. Далее пишем описание или выбираете желаемый стиль, после чего нейронная сеть начинает дополнять изображение. Данная функция присутствует также только на официальном интернет-ресурсе.

Функция стилизации дает возможность устанавливать дополнительные параметры ввода — положение модели и контуры исходного изображения. Вы можете взять изображение человека, пропустить его через нейронную сеть, чтобы изменить лишь внешность, при этом сохраняя первоначальную композицию. Эта опция доступна исключительно в боте Telegram.

Процесс комбинирования изображений схож с функцией стилизации, однако в этом случае искусственный интеллект игнорирует позицию модели и расположение элементов. Она просто сливает компоненты 2-х изображений в произвольном порядке, что может привести к неожиданным итогам. Эта функция также доступна исключительно в рамках бота Telegram.

Чтобы управлять процессом смешивания изображений, вы можете воспользоваться «Профессиональным режимом». Выберите соответствующий пункт в меню бота. После этого он предложит вам настроить влияние каждого из изображений в конечном результате. По умолчанию установлено равновесие 50:50, но еще можно выбрать 30:70 или 70:30.

Внутри бота для Telegram вы сможете без труда создать стикерпаки. Kandinsky 3.0 предлагает вам возможность автоматически генерировать упрощенные изображения с белой контуром в соответствии с вашими пожеланиями. Этот инструмент дает возможность начать работу с нуля, создавая новый пакет стикеров или вносить в него готовые элементы. Но стоит знать, что Кандинский не всегда справляется со сложными заданиями.

Один из минусов стикерпаков, создаваемых в Кандинском, заключается в том, что они доступны не только вам, но и боту. Это может создать определенные неудобства. После создания стикера, бот предлагает вам выбрать одну из 2-х опций: создать новый или добавить изображение в один из существующих, сгенерированные данным ботом.

Процесс генерации фотореализма

Во время работы данной сетью я не раз замечал, что его продукты стилистически напоминают мне работы известной нейросети Midjourney, особенно её 5-ое поколение, известное своим устремлением к фотореализму. Это побудило меня провести прямой тест на сопоставление этих 2-х сервисов. Я составлял запросы для Kandinsky на русском, а затем переводил их на английский для Midjourney.

В итоге я пришел к выводу, что иностранный сервис действительно создает изображения более высокого качества и отличается более тонким обращением с деталями. В то время как российский искусственный интеллект предлагает более насыщенные и контрастные цвета, словно контраст был увеличен до предела. Стилистически же обе нейросети создают схожие образы.

Главное достоинство Кандинского, он не требует платной подписки в отличие от Миджорни, где даже пробная версия платная. А вот оплатить его из России стало проблематично.

Процесс создания видео

В 2023 Сбер представил новую возможность приложения «Кандинский», позволяющую пользователям создавать небольшие анимационные видеоролики. Эти короткие зарисовки, длиной всего в 4 сек., напоминают гифки и могут быть комбинированы вместе. Хотя их качество еще не дотягивает до полноценной видеозаписи, их использование обещает быть интересной опцией для творчества.

Тем не менее, эта функция до сих пор доступна лишь ограниченному кругу активных пользователей, в то время как другим обещали предоставить ее к концу текущего года.

Чтобы создать анимацию в диалоговом роботе, выполните следующие шаги:

Введите текстовый запрос, аналогично тому, как вы делаете это для создания изображения. Вы можете указать сюжет, стиль и другие детали.
Робот предложит вам выбор из 16 возможных эффектов анимации, включая перемещение камеры: поворот объекта, обход с разных сторон, увеличение/уменьшение масштаба. В боте доступны демонстрационные примеры, которые вы можете посмотреть, используя команду /examples. Важно, при движении камеры вправо, центральный объект на анимации кажется, будто движется в противоположном направлении — влево.
Вы можете добавить еще 2 описания и выбрать для них спецэффекты. Это будет отражать продолжение анимации, как бы в последующих кадрах видео. Однако это не обязательно; вы можете ограничиться генерацией одной сцены.
Выберите желаемое разрешение видео и завершите видео. Можно выбрать видео в квадратном окне размером 640×640 пик., а также вертикальное 448×832 пик. или горизонтальное 832×448 пик

Для одного запроса создается видеоролик, продолжительностью 4 сек. Если в промте присутствует несколько сцен, то итоговый видеоролик может быть длиной 8-12 сек. Для достижения более реалистичного видео, можно объединить несколько созданных видео в одно при помощи внешнего сервиса.

Для создания анимации искусственный интеллект создает множество картинок, в каждой из которых элементы располагаются по-разному. Чтобы анимация выглядела как непрерывное движение, применяется метод стилизованного переноса, когда каждый новый кадр формируется на основе предыдущего. Однако, несмотря на это, результаты не всегда полностью лишены артефактов.

Далее представлю рекомендации, которые помогут получению высококачественных видео в приложении «Кандинский». Они ориентированы на устранение недостатков начальных версий нейронной сети Сбера.

Уменьшение количества мелких деталей способствует снижению мерцания. Поскольку каждый кадр формируется снова и немного отличается от предыдущего, анимация может казаться мерцающей. Когда изображаются движущиеся листья или волосы, мерцание кажется естественным. Но оживающих татуировках или изгибающихся украшениях — это не всегда выглядит убедительно. Поэтому при создании видео в промте стоит избегать упоминания мелких элементов.

Определите стиль и повторите его в формулировках. Это важно, когда в запросе присутствуют 2-3 сцены. Необходимо точно указать стиль изображения для каждой сцены. А описывая ключевой объект лучше использовать одинаковые слова — так увеличивается вероятность, что он не преобразится за 12 сек.

Не забывайте о динамике. В последней версии Kandinsky появилось морфинг — эффект, при котором объект плавно меняет форму во время движения. Это стоит учитывать при создании плавных переходов. Или можно использовать этот эффект как художественный приём: бумажный самолет превращается в настоящий, волосы — в волны.

Прежде всего, рекомендуется провести предварительную проверку на соответствие картинок сгенерированного запроса. Создайте изображения, отредактируйте запрос, а затем приступайте к созданию анимации — это позволит достичь нужного результата значительно быстрее. Убедитесь, что Кандинский создает изображения, достаточно схожее вашему промту, так как в анимации они будут многократно перерисованы.

Формат изображения должен соответствовать сюжету. Если ваше видео сосредоточено вокруг длинной фигуры — предпочтительнее использовать горизонтальное/вертикальное изображение. В то же время, для анимирования предметов, таких как мандарин, наиболее подходящим будет использование квадратного формата. Это позволит при перемещении камеры создать более естественное впечатление от объекта

Выводы

Kandinsky – это бесплатный сервис, способный создавать изображения и видео на основе текстовых промтов. Однако функция создания анимации доступна не всем.
В отличие от других подобных нейросетей, Kandinsky отлично работает с промтами на русском языке.
В арсенале Кандинского присутствует большое количество функций для создания контента, включая смешивание изображений, перенос стиля и дополнение объектов.
Бот для Telegram способен создавать изображения и преобразовывать их в стикеры.
В обновленной версии Кандинского особое внимание уделяется фотореалистичности, однако качество работы нейронной сети по-прежнему уступает Миджорни.
Kandinsky 2.2 оснащен возможностью генерации видео, где каждый кадр представляет собой отдельное изображение. На данный момент это ограничивается короткими гифками, которые можно комбинировать, однако они не достигают полноценного реализма.
Для достижения нужного результата при создании анимации важно учитывать множество деталей, в том числе изменение угла съемки, мерцание и плавные переходы между кадрами.