Краткий обзор эволюции генеративных моделей: от GAN (Generative Adversarial Networks) до диффузионных моделей.
GAN (Generative Adversarial Networks) — 2014 год
Созданы Иэном Гудфеллоу и его коллегами, GAN представляют собой состязательную архитектуру, состоящую из двух нейросетей: генератора и дискриминатора. Генератор учится создавать реалистичные образцы, а дискриминатор — отличать реальные данные от сгенерированных. Эта идея позволила добиться высокого качества синтезируемых изображений и других данных.Проблемы и ограничения GAN, которые побудили исследователей искать новые подходы.
Эти ограничения стимулировали исследователей к разработке новых архитектурных решений и методов обучения, таких как вариационные автокодировщики (VAE), модели на основе трансформеров, а также диффузионные модели, которые стремятся преодолеть недостатки GAN и обеспечить более стабильную и качественную генерацию данных.
Введение диффузионных моделей — принцип работы, преимущества и вызовы.
Принцип работы диффузионных моделей - диффузионные модели основаны на процессе постепенного добавления шума к данным и последующем их обратном восстановлении:
Преимущества диффузионных моделей
Недостатки диффузионных моделей
Диффузионные модели представляют собой мощный подход к генерации данных с высокой стабильностью и качеством. Однако их практическое применение сталкивается с вызовами скорости и ресурсов, что стимулирует дальнейшие исследования для оптимизации процессов генерации.
Переход в шум
Представьте, что у вас есть чёткое изображение. Чтобы его «испорить», к нему постепенно добавляют случайный шум — как будто вы накладываете на картинку всё больше и больше помех. В конце этого процесса изображение превращается в почти полностью случайный шум, из которого трудно что-то распознать.Обратный переход — от шума к изображению:
Теперь, если у вас есть обученная модель, она умеет делать обратное: начиная с этого шума, она поэтапно «очищает» его. На каждом шаге модель предсказывает, как из текущего зашумлённого состояния можно получить чуть более чёткое изображение. Постепенно, шаг за шагом, из шума восстанавливается структурированное и реалистичное изображение.Вывод из шума
После того, как изображение было «зашумлено» до состояния практически полного шума (на финальном шаге прямого процесса), начинается обратный процесс — то есть восстановление изображения из шума.Использование латентного пространства для ускорения генерации
В отличие от классических диффузионных моделей, которые работают напрямую с изображениями (высокой размерности), Stable Diffusion использует латентное пространство — более компактное представление изображений. Это значительно ускоряет процесс генерации и снижает требования к вычислительным ресурсам.Эффективность и скорость
Благодаря работе в латентном пространстве, модель требует меньших вычислительных затрат и может генерировать изображения быстрее, чем модели, работающие напрямую с изображениями.Гибкость и контроль:
Stable Diffusion позволяет легко управлять стилем, содержанием и детализацией создаваемых изображений через текстовые подсказки (prompting), что делает её более удобной для практического использования.
Open source: исходный код Stable Diffusion был опубликован публично, что позволило сообществу исследователей, разработчиков и художников свободно использовать, модифицировать и улучшать модель.
Значение: