Этот пост будет полезен людям, кто хочет разобраться в локальных моделях, особенно использующим их, как инструмент в создании контента, арта и дизайна (контекстЭтот пост будет полезен людям, кто хочет разобраться в локальных моделях, особенно использующим их, как инструмент в создании контента, арта и дизайна (контекст

Сколько VRAM нужно для нейросетей?

Этот пост будет полезен людям, кто хочет разобраться в локальных моделях, особенно использующим их, как инструмент в создании контента, арта и дизайна (контекст нейросетей - image и video). Так же поговорим о выборе видеокарты и параметрах влияющих на генеративные workflow.

Telegram

VRAM requirements

Для начала - график с оптимальными и минимальными значениями VRAM для image и video моделей.

69101d701b7204b656f86dc5692da413.png

Почему упор на обьем VRAM? При недостатке памяти вы либо не запустите модель, либо одна генерация будет длиться 1-2+ минуты (для image), что делает модель абсолютно не юзабельной. И да - с 8 gb можно запустить, например FLUX fp8, но это будет похоже на общение по почте - долго и муторно.

До минимальных значений модель либо выдаст ошибку, либо будет часто забирать global memory, что замедлит ее в разы. Оптимальное значение - это либо официальное требование VRAM, либо максимальное число по комьюнити тестам, выше которого обьем уже не даст приемущества в скорости.

Что влияет на размер нейросети?

Почти все веса модели - это матрицы и вектора (ну или weights and biases), которые еще называют "параметрами", вы могли видеть, что одна модель имеет размер 32B, у GPT-5 вообще 2 триллиона параметров и т.п. Они имеют precision или quantization level и отличаются по количеству байт.

a82b00989ab8e4179faedbd85fa759a4.png95c80e97b10c1cbc21a2cdaf8d1f90c8.png

Самые популярные форматы:

  • FP16 - (16-bit floating point) 2 байта на параметр

  • BF16 - (16-bit floating point) 2 байта - разница в Exponent и Fraction битах

  • FP32 - (32-bit floating point) 4 байта

  • FP8 - здесь начинается квантизация - это самый популярный формат, требует 1 байт на параметр

  • GGUF - уже немного другой формат, но включим его сюда, квантизация начинается от Q2 до Q8, gguf - самый оптимизированный вариант

Соответственно, можно радикально сжать модель, если параметр будет весить не 4 байта, а один.

Quantization

Если у вас недостаточно VRAM, или базовая модель огромна - ищите quantized версии (fp8, GGUF, lightning).

dd7bf89d32ce5f6f7f2d20db341f4491.png

Quantization снижает битность параметра (FP32 --> FP16) и может поменять float на int (FP32 --> INT8), что сильнее оптимизирует нейросеть, снизит computational и memory costs. Говорят даже о снижении потребления энергии, но это в теории.

Да, за оптимизацию нужно платить качеством, но это не столь критично, когда стоит вопрос между использованием и не использованием нейросети.

(По правде, в личных тестах я почти не заметил отличий FLUX.1-Dev и fp8 версии, они становятся видны при снижении количества параметров (WAN 2.2 (14B) и (WAN 2.2 (5B)) или с изменением workflow (FLUX-Dev и FLUX.Schnell))

Зачем вам GPU?

86770e2917b0d4ff63df79bf57b53768.png

Нейросети нагружают железо матричными операциями, сами матрицы большие, нейронов и слоев бывает много - значит нам важен обьем памяти и скорость вычислений.

bf55e3a6d7c5951aa8f6b5cf202923df.png096a2ca162915b6d0d62fa8598f9c067.gif

За вычисления отвечают ядра, у GPU их больше, чем у CPU, плюс отличия в архитектуре дают многократное приемущество в паралельных задачах. Тензорные ядра могут складывать и умножать матрицы за одну операцию. Все это важно для нейросетей, 3D, мат. анализа и любой big data.

6887eb1a413d0b2f24035341ec3b9a1c.png

При работе с нейросетями приходится делать много итераций: править промт, конфиг, делать тесты и чинить сломанные моменты. Чем короче каждая итерация - тем быстрее дорога к нужному результату.

Основа скорости - тензорные ядра. Они настолько быстрые, что основной проблемой становится скорость VRAM.

Memory bandwidth

0ad7f11aade10a917cda9e41cba14c8a.png

GPU имеет собственную память (VRAM), она разделяется по блокам:

  • Streaming Multiprocessors (SM):

    • Registers

    • Shared Memory

    • L1 Cache

  • L2 Cache

  • Global Memory

L1, Shared Memory, L2, Registers - отличаются по размеру и скорости, не будем останавливаться на них.

Global Memory - самая большая, но наиболее труднодоступная и медленная.

Напомню, что нам важны тензорные ядра, они складывают все наши матрицы и делают это настолько быстро, что могут спокойно простаивать 50% времени, потому что не успели получить новые операции из памяти - здесь возникает bottleneck.

Memory bandwidth (MB) - это скорость перемещения даты между GPU ядрами и блоками памяти. MB и количество тензоров должны быть в балансе. Если у GPU много тензоров, но низкая пропускная способность - толку от них мало. Далее я покажу хорошие примеры потребительских GPU, а сейчас наконец-то переходим к нейросетям!

Нейросети и VRAM

Напомню, что на графике минимальный (до него модель не будет работать) и оптимальный обьем VRAM. Я разбил данные на отрезки по 8, 12, 16, 24-32 gb - они наиболее популярны.

В списке:

Image-models:

  • Stable Diffusion (SD)

  • FLUX

  • Qwen-Image & Qwen-Edit

Video-models:

  • Wan

  • Hunuyan-Video

  • LTX-Video

Желтым цветом отмечены "разблокированные" модели, доступные с увеличением VRAM.

8 gb

7aec736001342716e4a404c4137ff0a5.png

8 gb критически не достаточно для локальных моделей, я сам обновил свою 3070, чтобы плотнее заняться ими. На 8 gb не доступны:

  • Wan 2.2 (14B) - топовая видео модель с комьюнити и различными workflow

  • FLUX.1-Dev будет работать в fp8 версии, но - это самая низкая граница, генерации могут занимать несколько минут

  • по опыту - не доступен любой ControlNet workflow

Здесь находится минимальная граница, вы как бы можете запустить модель, но она будет работать не оптимально, будет залазить в global memory, все будет медленно и доооолго.

12 gb

a27c543ee115fa72dd2d0c07e519ed89.png

Свою RTX 3070 я обновил сразу на 5090, но перед этим пользовался различными VDS серверами и Colab'ом с Runpod'ом. Чаще пользовался A2 на 16 gb или той же 5090 на 32 gb. Не могу поделиться опытом работы на 12 gb.

Тут открываются:

  • FLUX.1 Kontext GGUF (но это нижняя граница)

  • FLUX.2 fp8

Stable Diffusion (SD) не буду даже упоминать - мое мнение вы можете прочесть в ТГ.

16 gb

7b74312f98f7f5d18486354fae968da8.png

Самый оптимальный (на данный момент) обьем, здесь варятся локальные SOTA модели:

  • WAN 2.2 (14B)

  • FLUX.1-Dev и FLUX.2-Dev

  • Qwen-Image

Но на Qwen-Edit памяти уже не хватит, со временем требования вырастут и на актульные модели (чего стоит FLUX.1 и FLUX.2). Для самых жирных моделей потребуется отключить все программы, кроме ComfyUI, чтобы получить полную производительность.

24-32 gb

4b7e6f71cbb2bc68951b5f052d8110ba.png

Территория Control-Net'ов, сложных workflow, файнтюнинга и 90-го семейства RTX.

Разблокирываются:

  • FLUX.1 Kontext

  • Qwen-Image-Edit

Control-Net и сложные workflow применяют технику MoE (Mixture of experts), когда задача распределяется между "экспертными" моделями, из-за этого количество LoRA и даты которую нужно подгружать - возрастает вместе с требованиями к обьему и скорости VRAM.

Для файн-тюнинга нужно прогонять датасет по множеству раз, от размера, количества эпох и отдельных параметров (например Learning Rate'а и длины токена) зависит качество, с бюджетными видеокартами трудно удержать все параметры на приемлемом уровне.

Видеокарты

По аналогии с моделями, для вашего удобства я собрал все популярные RTX карты в одной таблице и сделал анализ, но без цены, потому что не все GPU бывают в наличии, люди живут в разных местах, ситуация с дефицитом постоянно меняется. Решение по цене вы можете сделать самостоятельно, а сейчас посмотрим на 3 ключевых параметра:

  • обьем VRAM

  • Memory bandwidth (gb/s)

  • Количество Tensor Cores

ec33142360117182e534886c9582c489.png

Данные отдельно по каждому параметру:

6cf9c26a14f0c21d0b69ad6a74ad4cbc.pngcdf4d4a44d7e95ad6f611d8385581f6e.png4b8fc93ee34517c61f8d341f5a5c419a.png

VRAM разделены по цвету:

  • красный - недостаточно

  • желтый - терпимо

  • синий - оптимально

  • зеленый - top-pick

  • фиолетовый - особенный случай

  • (Черным отмечен мой выбор GPU)

RTX tier 50

430389b7c0aa7d4089b01f2d4eb156fa.png

Я уже отмечал, что 8 gb недостаточно для локальных нейросетей, поэтому 50-ое семейство - не лучший выбор.

RTX tier 60

5776778cc3f5ce257d4fbc6337c40a59.png

Если вам нужен дешевый и сердитый вариант - это RTX 3060 с 12 gb. Для 16 gb лучше выглядит 5060 Ti, потому что 4060 Ti имеет почти в 2 раза меньший Memory Bandwidth, что может создать ощутимый bottleneck.

RTX tier 70

0b69c0b782a037bc41cd961d310d7f8e.png

Смотрим на версии с 16gb VRAM, между 5070 Super и Ti появляется выбор:

  • Super - 2gb VRAM

  • Ti - 25% Memory Bandwidth

Мое мнение на стороне Super, 2 gb позволят комфортнее пользоваться ПК во время генерации, но вы можете выбрать скорость Ti версии.

RTX tier 80

492bf2f039b35461d0121fe129b66f41.png

Для меня фаворит - 5080 Super из-за 24gb VRAM. Среди других я бы не стал выбирать обычную 5080, а посмотрел в сторону 4080, потому что у 50 серии нет особого прироста в тензорных ядрах, а цена заметно выше.

RTX tier 90

2bec00c64f382d7980d5d1b14aa1a2c5.png

Топ-пик и мой пик - RTX 5090. Сила, мощь и явный отрыв среди вообще всех других видеокарт. Но вы можете взять и 40 серию, и 30.

3090 - особый случай, топ за свои деньги, Xeon среди видеокарт (шутка). Мощный и сердитый вариант, кто хочет отдачи от каждого вложенного рубля.

На этом все, мы рассмотрели нейросети и видеокарты. Кому было интересно и полезно - можете подписаться на мой ТГ-канал. Я пишу про нейросети (в основном локальные), тех арт и иногда про 3D. Спасибо за внимание!

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.