Приветствую! В этой статье мы рассмотрим лучшие, на наш взгляд, инструменты для генерации изображений с использованием Stable Diffusion.

Стоит отметить, что DALL-E 3 и Midjourney представляют собой коммерческие облачные сервисы. То есть для их использования нужно покупать подписку и генерировать изображения на удаленных серверах. А вот Stable Diffusion имеет ряд преимуществ.

Во-первых, это open source решение. Модели с исходным кодом находятся в свободном доступе. Их может скачать и использовать кто угодно совершенно бесплатно.

Во-вторых, с помощью Stable Diffusion можно генерировать картинки прямо на своем персональном компьютере или ноутбуке. Это очень удобно — не нужно отправлять данные куда-то и платить за использование чужих серверов.

Конечно, для работы Stable Diffusion требуется достаточно производительная видеокарта. Но если таковая имеется, открываются широчайшие возможности по созданию цифрового арта в домашних условиях.

В этой статье мы подробно рассмотрим простые и понятные GUI-инструменты, позволяющие эффективно управлять Stable Diffusion на ПК. Поехали!

Fooocus

Fooocus был разработан с упором на простоту и удобство использования. Его создатели вдохновлялись Midjourney, стремясь сделать процесс генерации максимально легким для пользователя.

Focus on prompting and generating

В отличие от Stable Diffusion, где нужно вручную настраивать множество параметров, в Fooocus все сложные технические детали скрыты. Вам не нужно разбираться в тонкостях — просто вводите промпт, и система создаст красивое изображение.

Одно из ключевых преимуществ Fooocus — движок обработки текстовых запросов на базе GPT-2. Он умеет «читать между строк» и генерировать потрясающие результаты даже из коротких неоднозначных промптов вроде «House in garden».

Помимо текста, Fooocus позволяет использовать изображения в качестве исходных данных (img2img). Поддерживаются различные режимы:

  • Upscale/Variation — улучшение и вариации исходного изображения
  • Inpaint/Outpaint — дорисовка областей внутри/снаружи картинки
  • Image Prompt — генерация нового изображения на основе семантики исходного

Также инструмент включает функции для работы со стилями, качеством, размерами, отрицательными промптами и многим другим. По 1 клику вы сможете добавить или удалить стиль для генерации.

Помимо стилей в 1 клик можно включать заготовленные пресеты использующие разные чекпоинты Stable Diffusion (Дообученная модель весов нейросети, используемая Stable Diffusion для генерации).

Установка на устройство также будет проста — на странице проекта в GitHub есть отдельная кнопка для загрузки zip архива, вам останется только распаковать его, запустить файл run.bat, подождать загрузку первой модели для пресета initial и программа готова к работе.

Загрузить программу можно по этой ссылке:

В целом, Fooocus — мощный и очень привлекательный для новичков инструмент. Благодаря простому и интуитивно понятному интерфейсу, пользователю не требуется выполнять сложных настроек или изучать дополнительную информацию.

InvokeAI

InvokeAI — действительно интересный и многофункциональный инструмент для работы со Stable Diffusion на ПК.

С одной стороны, его отличает современный и очень удобный пользовательский интерфейс. Процесс генерации изображений максимально упрощен, что позволяет даже начинающим пользователям быстро освоить основы работы с данным инструментом.

Однако за этим удобством скрывается очень мощный функционал, нацеленный на решение по-настоящему серьезных творческих задач. Например, в InvokeAI встроен универсальный холст (Unified Canvas), объединяющий все основные режимы генерации Stable Diffusion.

На этом холсте художник может свободно комбинировать text-to-image, image-to-image, инпейнтинг, аутпейнтинг и прочие техники в рамках единого бесшовного процесса. Возможности ограничены лишь фантазией!

Кроме того, InvokeAI имеет встроенную систему воркфлоу на основе нод. Это позволяет создавать гибкие конвейеры для генерации с учетом самых разных требований.

Однако стоит учитывать, что при всех своих возможностях InvokeAI требует довольно серьезных вычислительных ресурсов и генерирует изображения несколько медленнее, чем более легковесные инструменты вроде Fooocus.

Работая в InvokeAI, вы также получаете доступ к продвинутым инструментам: апскейлинг, работа со стилями и эмбеддингами1, управление моделями и многое другое. Плюс, интегрированная галерея для хранения и ремикса контента. InvokeAI предлагает множество других профессиональных инструментов:.

  • Продвинутый менеджер загрузки и управления моделями
  • Поддержка различных архитектур нейросетей (в том числе SD XL)
  • Инструменты для ремастеринга и апскейла изображений
  • Система работы со специальными эмбеддингами, LoRA2 и т.п.
  • Организованная галерея для хранения и управления арт-проектами

Для загрузки нужно перейти в раздел Releases, загрузить последнюю версию и следовать инструкциям в репозитории. Установка не такая просто как в Fooocus, но разберутся все:)

InvokeAI может действительно стать идеальной рабочей средой для профессиональных художников и студий, занимающихся AI-артом на высоком уровне. Этот инструмент рассчитан в первую очередь на творческий и коммерческий рынки.

Stable Diffusion WebUI Forge

Следующий участник в нашем обзоре — Stable Diffusion WebUI Forge.

Forge — это мощное расширение для оригинального Web UI от Automatic1111 (Один из первых и самый популярный интерфейс для Stable Diffusion). Главная цель Forge — оптимизировать использование ресурсов и максимально ускорить процесс генерации изображений на локальном компьютере.

Если у вас видеокарта со скромным объемом памяти 6-8 ГБ, Forge может увеличить скорость работы Stable Diffusion на 30-75%! При этом пиковое потребление видеопамяти 3 снизится на 700 — 1500 ГБ.

Более того, с Forge вы сможете генерировать картинки в разрешении, превышающем исходные возможности в 2-3 раза. Также значительно увеличивается максимальный размер генерируемого батча — в 4-6 раз больше, чем в обычном режиме.

Важно! Столь впечатляющие результаты Forge демонстрирует за счет серьезных оптимизаций ресурсов. Поэтому на мощных видеокартах вроде RTX 4090 прирост производительности будет не столь заметным.

Но улучшение скорости работы — лишь вершина айсберга в возможностях Forge. Его главная «фишка» — революционный Unet Patcher. Это механизм, позволяющий разработчикам легко создавать расширения и внедрять новые методы улучшения качества генерации.

Благодаря Unet Patcher, сложнейшие техники вроде FreeU4 , HyperTile5 , ControlNet6 и другие можно реализовать всего в 100 строк кода! А это означает, что с ростом популярности Forge, мы увидим настоящий бум передовых AI-алгоритмов для Stable Diffusion.

Кроме того, в Forge уже интегрированы новые семплеры7, поддержка Stable Video Diffusion для генерации видео, техника Z123 и многие другие функции, недоступные в оригинальном Web UI.

В целом, Forge — выбор тех, кто стремится максимально выжать из своего «железа» все соки. Благодаря оптимизациям, вы сможете работать с высоким разрешением и большими батчами8 на скромных видеокартах. А интеграция с Unet Patcher обеспечит доступ к самым передовым AI-алгоритмам в одном удобном решении.

Итоги

Подводя итог нашего обзора, можно сделать вывод, что современный рынок предлагает широкий выбор инструментов для работы со Stable Diffusion на локальном компьютере. Каждый из рассмотренных нами GUI-решений — InvokeAI, Forge и Fooocus — обладает своими уникальными особенностями и преимуществами.

Fooocus, пожалуй, самый простой и интуитивно понятный вариант для новичков. Здесь от пользователя фактически не требуется никаких настроек — достаточно ввести текстовый промпт, и система сама сгенерирует качественные изображения. Однако за этой простотой скрываются мощные алгоритмы обработки запросов.

InvokeAI занимает более серьезную нишу. Этот инструмент ориентирован на опытных художников и профессионалов, стремящихся к максимально гибкому управлению процессом генерации. InvokeAI предлагает универсальный холст для работы, продвинутые настройки и поддержку широкого спектра моделей и расширений. Безусловно, такой функционал требует от пользователя определенных навыков.

Но наиболее интересным решением является Forge. Этот инструмент сочетает в себе оптимизацию производительности с поддержкой самых современных технологий для работы со Stable Diffusion. Forge позволяет ускорить генерацию и повысить разрешение даже на «слабых» видеокартах. А благодаря уникальному механизму Unet Patcher, разработчики могут легко внедрять в Forge новейшие алгоритмы улучшения качества.

В целом, все три рассмотренные нами решения дают пользователям простой и удобный доступ к невероятной силе Stable Diffusion. Главное — определить, какие именно аспекты важны лично для вас, и выбрать соответствующий инструмент. Независимо от предпочтений, каждый из них способен стать отличным помощником в творческом процессе создания визуальных шедевров.

Мини-словарь:

  1. Эмбеддинг (embedding) — векторное представление текстовых данных, используемое для обработки промптов моделью. ↩︎
  2. LoRA (Low-Rank Adaptation) — метод обучения и применения дополнений к базовой модели для улучшения качества генерации. ↩︎
  3. Видеопамять (VRAM) — память на видеокарте, используемая для обработки и хранения данных во время генерации изображений. ↩︎
  4. FreeU — техника фильтрации изображений в пространстве Фурье для улучшения качества деталей. ↩︎
  5. HyperTile — метод разбиения изображения на блоки для генерации сверхвысоких разрешений. ↩︎
  6. ControlNet — техника для управления процессом генерации с помощью дополнительных изображений-инструкций. ↩︎
  7. Семплер (sampler) — алгоритм случайного выбора значений для генерации шума при создании изображения. Различные семплеры влияют на визуальные характеристики результата. ↩︎
  8. Батч (batch) — группа изображений, которые генерируются одновременно за один проход Stable Diffusion. Увеличение размера батча позволяет создавать больше картинок за раз. ↩︎