Что такое CFG Scale в Stable Diffusion?

Если вы когда-либо пробовали генерировать изображения с помощью нейросети Stable Diffusion, то наверняка видели среди множества настроек загадочный параметр CFG Scale (Classifier-Free Guidance Scale). Это один из самых важных «рычагов», влияющих на конечный результат. Простыми словами, CFG Scale — это коэффициент, который указывает нейросети, насколько строго ей нужно следовать вашему текстовому запросу (промпту).

Технически, CFG Scale — это механизм, который позволяет управлять балансом между креативностью модели и её послушностью инструкциям пользователя. Без этого механизма модель генерировала бы изображения, лишь отдалённо связанные с текстовым описанием, больше полагаясь на свои внутренние представления о мире. CFG Scale «направляет» процесс генерации, усиливая влияние текстовой подсказки на каждый шаг денойзинга (процесса «очистки» изображения из шума).

Чем выше значение CFG Scale, тем ближе результат к вашему текстовому описанию, но тем выше риск получить перенасыщенное, неестественное изображение. Чем ниже значение — тем креативнее и свободнее будет нейросеть, но она может проигнорировать важные детали из промпта.

Как работает CFG Scale: виды воздействия на изображение

Хотя формально CFG Scale — это числовой параметр (обычно от 1 до 30), его влияние на изображение можно классифицировать по эффектам, которые он производит при разных диапазонах значений.

Низкие значения (1-5)

При низких значениях CFG Scale нейросеть получает большую свободу для интерпретации. Она будет следовать общему настроению или концепции промпта, но добавит много деталей «от себя». Это может привести к:

  • Художественным и абстрактным результатам: Изображения получаются более живописными, с неожиданными элементами.
  • Игнорированию части запроса: Если в промпте много объектов или сложных условий, нейросень может некоторые из них пропустить.
  • Высокой вариативности: При одном и том же промпте и сиде (seed) можно получить сильно различающиеся картинки.

Идеально подходит для поиска идей, генерации артов в свободном стиле или когда точное соответствие тексту не критично.

Средние значения (6-10)

Этот диапазон считается «золотой серединой» и наиболее часто используется. Нейросеть находит хороший баланс между следованием инструкциям и сохранением естественности изображения.

  • Удовлетворительное соответствие промпту: Ключевые объекты и действия из описания будут отражены.
  • Естественные цвета и контраст: Изображения не выглядят «перешарпленными» или кислотными.
  • Предсказуемость: Результаты более стабильны от генерации к генерации.

Значение 7-9 является стандартным и рекомендуется для большинства задач.

Высокие значения (11-20 и выше)

На высоких значениях нейросеть становится очень «послушной». Она будет пытаться воплотить в пикселях каждое слово из промпта, но за это приходится платить.

  • Высокая детализация и чёткость: Объекты могут стать излишне контрастными.
  • Появление артефактов: Возникают искажения цветов (цифровой «кислотный» вид), неестественные тени, «замыливание» или «грязь» на изображении.
  • Снижение художественной ценности: Картинка может выглядеть как перенасыщенная 3D-визуализация.

Используется, когда точность принципиально важна (например, для технических иллюстраций), но требует последующей постобработки.

Где встречается и как применяется CFG Scale?

Параметр CFG Scale — неотъемлемая часть любого интерфейса для работы с Stable Diffusion и её форками (Automatic1111 WebUI, ComfyUI, Stable Diffusion в Midjourney (в ином виде) и др.). Его применение зависит от задачи:

  1. Генерация концепт-артов и идей: Низкий CFG (3-6) позволит нейросети предложить неожиданные варианты.
  2. Создание иллюстраций по точному ТЗ: Средний CFG (7-10) обеспечит баланс между соответствием брифу и качеством картинки.
  3. Детализированная визуализация объектов: Высокий CFG (11-15) заставит модель точно отрисовать все указанные атрибуты, но изображение может потребовать ретуши.
  4. Эксперименты со стилями: Подбор оптимального CF Scale — часть творческого процесса. Для разных художественных стилей (масло, акварель, pixel art) «идеальное» значение может отличаться.

Важно помнить, что оптимальное значение CFG Scale также зависит от самой модели (checkpoint), который вы используете, и от сложности промпта. Короткие промпты часто требуют более высокого значения, чем длинные и детальные.

Итог: ключевой рычаг управления

CFG Scale в Stable Diffusion — это не просто технический параметр, а основной инструмент диалога между пользователем и нейросетью. Он позволяет гибко настраивать процесс генерации: от свободного творчества AI до точного выполнения инструкций. Понимание его работы избавляет от разочарований вроде «нейросеть меня не слушается» или «картинка получилась уродливая». Начните эксперименты со значения 7-8 и, меняя его в большую или меньшую сторону, наблюдайте, как меняется результат. Это лучший способ почувствовать его влияние и найти свой идеальный баланс для каждой задачи.

Частые вопросы по теме

1. Какое значение CFG Scale считается оптимальным по умолчанию?
Для большинства моделей Stable Diffusion оптимальным стартовым значением является 7. Это баланс между послушностью и естественностью изображения.

2. Почему при высоком CFG Scale изображение становится «кислотным» или с артефактами?
Слишком высокое значение заставляет нейросень чрезмерно усиливать признаки, соответствующие промпту, что приводит к перенасыщению цветов, контрастов и появлению цифрового шума.

3. Влияет ли CFG Scale на скорость генерации изображения?
Нет, скорость генерации (время обработки) практически не зависит от значения CFG Scale. Она определяется в первую очередь размером изображения, количеством шагов и мощностью вашего железа.

4. Нужно ли менять CFG Scale при использовании LoRA или других дополнений к модели?
Да, иногда это необходимо. Некоторые LoRA (малые адаптеры для стилей или персонажей) могут быть «заточены» под определённый диапазон CFG Scale, что указано в их описании. В целом, правило «начинать со средних значений» остаётся в силе.

5. Что такое «negative prompt» и как он связан с CFG Scale?
Negative prompt (негативный запрос) — это слова, которые вы НЕ хотите видеть на изображении. CFG Scale влияет и на него тоже: чем выше значение, тем строже модель будет избегать указанного в негативном промпте.

Источники