Как уместить мощный ИИ в видеокарту: параметры, квантование и железо

Запустить локальный ИИ на своём железе — задача вполне реальная. Но прежде чем скачивать первую попавшуюся модель, стоит понять, почему одни модели влезают в 8 ГБ VRAM, а другие требуют дата-центр. Это не магия — это математика параметров, квантование и архитектурные решения, которые определяют, что вообще возможно запустить дома.

Что такое параметры и почему «больше» не значит «лучше»

Хорошая метафора: представьте национальную библиотеку. Вам не нужны сами книги — вам нужен гениальный библиотекарь, который все их прочитал и держит в голове. Он отвечает на вопросы, строит связи, формулирует выводы. Именно так работает языковая модель — параметры и есть этот «библиотекарь», спрессованный в числа.

Параметры измеряются в миллиардах (B = billions). Практическая шкала выглядит так:

Размер	Диапазон	Типичное применение
Small	1–3B	Лёгкие чаты, простые задачи
Medium	7–9B	Поиск по базам знаний, базовый код
Large	12–35B	Сложная логика, аналитика
Expert / Massive	70–671B	Профессиональный уровень

Но число параметров — не единственное, что определяет качество. Существуют законы масштабирования Chinchilla: оптимальный результат достигается при правильном балансе параметров, данных и вычислений. Модель на 70B параметров, обученная на 1,5 триллиона токенов, обходит по качеству модель на 175B, обученную на скудных данных.

Ещё один важный момент — эмерджентные способности. Некоторые навыки модели приобретают не постепенно, а скачком при пересечении определённого порога. Цепочка рассуждений (chain-of-thought) появляется примерно на 10B параметрах. Стабильное обучение в контексте — после 13B. Ниже этих порогов можно получить модель, которая формально меньше, но на определённых задачах ведёт себя принципиально иначе.

Квантование: как 140 ГБ превращаются в 40 ГБ

Здесь начинается самое интересное для тех, кто думает о квантовании нейросети под домашнее железо.

В полном качестве (FP16) каждый параметр занимает 2 байта. Для модели на 70B — это 140 ГБ VRAM. Нереальная цифра для домашнего GPU. Квантование — это сжатие, которое переводит параметры в числа с меньшей точностью:

Формат	Байт на параметр	70B модель
FP16	2,0	~140 ГБ
Int8	1,0	~70 ГБ
Int4	0,5	~40 ГБ
GGUF Q4_K_M	~0,57	~45 ГБ

Наиболее распространённый формат для локального запуска — GGUF Q4_K_M. Разберём название:

Q4 — 4-битное квантование
K — метод K-means кластеризации (алгоритм ищет паттерны в данных, а не просто рубит точность влоб)
M — применяется к средним блокам модели

Ключевое: важные слои сжимаются меньше, менее значимые — больше. Алгоритм не теряет информацию случайно — он её перераспределяет. Потеря качества при Q4_K_M минимальна и для большинства практических задач незаметна.

KV-кэш: скрытый пожиратель памяти

Когда говорят о требованиях модели к VRAM для LLM, часто называют только размер весов. Но это только часть расходов.

Память делится на две части:

Фиксированные затраты — веса модели плюс ~0,5 ГБ оверхеда
Переменные затраты — KV-кэш, который растёт линейно с каждым токеном в контексте

KV-кэш — это краткосрочная память модели. Каждый токен, который модель «видит» в диалоге, откладывается в кэш. Чем длиннее разговор — тем больше памяти занято.

Практический пример: Qwen3 8B требует около 5,5 ГБ под веса плюс ещё ~0,5 ГБ на 32 000 токенов контекста. Звучит разумно. Но у более старых архитектур без оптимизации GQA (Grouped Query Attention) кэш мог раздуваться до десятков гигабайт при длинном контексте.

Отдельный нюанс — MECW (Maximum Effective Context Window). Производители указывают максимальный контекст в токенах, но реальный рабочий контекст, где модель сохраняет качество, часто заметно меньше заявленного.

Железо: 24 ГБ VRAM как входной билет

Для запуска серьёзных моделей на локальном железе 24 ГБ VRAM стали де-факто минимальным порогом. Это открывает доступ к моделям 30–34B в Q4-квантовании и к большинству 13B-моделей в более высоком качестве.

Два самых популярных варианта — RTX 3090 и RTX 4090. Оба на 24 ГБ, но ведут себя по-разному:

Параметр	RTX 3090	RTX 4090
TFT (время до первого токена)	Медленнее	В 1,5–2x быстрее
TPS (токенов в секунду)	Базовый	+15–20%
NVLink (объединение двух карт)	Есть → 48 ГБ	Убран

По скорости генерации (TPS) разница между поколениями всего 15–20% — упирается в пропускную способность памяти, а не в вычислительную мощь. Но по времени до первого токена (TFT) 4090 выигрывает значительнее — за счёт тензорных ядер нового поколения.

Интересный момент: у RTX 3090 есть NVLink — можно соединить две карты и получить единое адресное пространство на 48 ГБ. Это открывает запуск 70B-моделей на домашнем железе. В RTX 4090 NVLink убрали — корпоративное решение, которое вынуждает переходить на серверные карты для таких задач.

DeepSeek R1 и бизнес-применение

Модель, которая изменила восприятие локального ИИ в профессиональной среде — DeepSeek R1. Оригинал на 671B параметрах недоступен для домашнего запуска, но команда выпустила дистиллированные версии от 1,5B до 70B — они влезают в реальное железо.

Главная особенность R1 — тег <Think>. Перед финальным ответом модель строит внутреннее рассуждение: выдвигает гипотезы, находит ошибки в логике, исправляет их — и только потом формулирует вывод. Это как черновик перед чистовиком: результат заметно лучше, особенно в программировании и логических задачах.

Для бизнеса картина складывается из двух уровней:

8–14B модели — оптимальны для RAG (Retrieval Augmented Generation). Вместо того чтобы генерировать ответ из «воспоминаний», модель читает корпоративную базу знаний и отвечает строго по ней. Хорошая шпаргалка на экзамене: точная, без фантазий, привязанная к реальным документам.

30–70B модели — уровень сложных задач: аудит контрактов, проектирование архитектуры кода, аргументированные выводы с ссылками на источники («аудиторский след»). Здесь уже требуется серьёзное железо, но и результат соответствующий.

Главный аргумент для корпоративного внедрения — конфиденциальность. Ни банк, ни юридическая фирма, ни оборонный подрядчик не может позволить себе отправлять рабочие данные на внешние сервера. Локальная модель решает этот вопрос радикально: данные физически не покидают инфраструктуру.

Для серверного развёртывания используют два основных стека: llama.cpp для гибкой настройки и vLLM для корпоративного продакшна. В vLLM реализован PagedAttention — механизм, который дробит память на мелкие блоки динамически вместо резервирования огромных чанков под каждый запрос. Это позволяет обрабатывать сотни параллельных запросов без падения от переполнения KV-кэша.

Итоги

Число параметров определяет потенциал модели, но не гарантирует качество — важен баланс данных и вычислений при обучении
Квантование GGUF Q4_K_M — практический стандарт для локального запуска: 140 ГБ превращаются в ~45 ГБ с минимальной потерей качества
KV-кэш — скрытая статья расходов VRAM, которую легко недооценить при планировании железа
24 ГБ VRAM — рабочий входной билет для серьёзных моделей; RTX 3090 с NVLink даёт путь к 48 ГБ и 70B-моделям
DeepSeek R1 дистилляты принесли reasoning-уровень рассуждений на домашнее железо
Для бизнеса локальный ИИ — это прежде всего контроль над данными, а не экономия на API

Если хотите запустить всё это не разбираясь в деталях настройки — у нас есть готовые решения:

Готовый ПК с предустановленным ПО — включите и работайте
Dockerfile + вступление в клуб — если предпочитаете контейнеры и своё железо