Запустить локальный ИИ на своём железе можно. Но как выбрать компьютер для нейросети, если одни модели влезают в 8 ГБ VRAM, а другие требуют дата-центр? Ответ — в математике параметров, квантовании и выборе железа.
Что такое параметры и почему «больше» не значит «лучше»
Представьте национальную библиотеку. Вам не нужны сами книги — нужен библиотекарь, который все их прочитал и держит в голове. Он отвечает на вопросы, строит связи, формулирует выводы. Параметры модели и есть такой «библиотекарь», спрессованный в числа.
Параметры измеряются в миллиардах (B = billions). Практическая шкала выглядит так:
| Размер | Диапазон | Типичное применение |
|---|---|---|
| Small | 1–3B | Лёгкие чаты, простые задачи |
| Medium | 7–9B | Поиск по базам знаний, базовый код |
| Large | 12–35B | Сложная логика, аналитика |
| Expert / Massive | 70–671B | Профессиональный уровень |
Но число параметров — не единственное, что определяет качество. Законы масштабирования Chinchilla показали: результат зависит от баланса параметров, данных и вычислений. Модель на 70B параметров, обученная на 1,5 триллиона токенов, обходит по качеству модель на 175B, обученную на скудных данных.
Отдельная история — эмерджентные способности. Некоторые навыки модели приобретают не постепенно, а скачком. Цепочка рассуждений (chain-of-thought) появляется примерно на 10B параметрах. Стабильное обучение в контексте — после 13B. Ниже этих порогов можно получить модель, которая формально меньше, но на определённых задачах ведёт себя принципиально иначе.
Квантование: как 140 ГБ превращаются в 40 ГБ
Квантование — ключевой приём для запуска больших моделей на своём железе.
В полном качестве (FP16) каждый параметр занимает 2 байта. Для модели на 70B — это 140 ГБ VRAM. Ни одна офисная видеокарта столько не имеет. Квантование — это сжатие, которое переводит параметры в числа с меньшей точностью:
| Формат | Байт на параметр | 70B модель |
|---|---|---|
| FP16 | 2,0 | ~140 ГБ |
| Int8 | 1,0 | ~70 ГБ |
| Int4 | 0,5 | ~40 ГБ |
| GGUF Q4_K_M | ~0,57 | ~45 ГБ |
Наиболее распространённый формат для локального запуска — GGUF Q4_K_M. Разберём название:
- Q4 — 4-битное квантование
- K — метод K-means кластеризации (алгоритм ищет паттерны в данных, а не просто рубит точность влоб)
- M — применяется к средним блокам модели
Ключевое: важные слои сжимаются меньше, менее значимые — больше. Алгоритм не теряет информацию случайно — он её перераспределяет. Потеря качества при Q4_K_M минимальна и для большинства практических задач незаметна.
KV-кэш: скрытый пожиратель памяти
Когда говорят о требованиях модели к VRAM, часто называют только размер весов. Но это только часть расходов.
Память делится на две части:
- Фиксированные затраты — веса модели плюс ~0,5 ГБ оверхеда
- Переменные затраты — KV-кэш, который растёт линейно с каждым токеном в контексте
KV-кэш — это краткосрочная память модели. Каждый токен, который модель «видит» в диалоге, откладывается в кэш. Чем длиннее разговор — тем больше памяти занято.
Практический пример: Qwen3 8B требует около 5,5 ГБ под веса плюс ещё ~0,5 ГБ на 32 000 токенов контекста. Звучит разумно. Но у более старых архитектур без оптимизации GQA (Grouped Query Attention) кэш мог раздуваться до десятков гигабайт при длинном контексте.
Отдельный нюанс — MECW (Maximum Effective Context Window). Производители указывают максимальный контекст в токенах, но реальный рабочий контекст, где модель сохраняет качество, часто заметно меньше заявленного.
Железо: от 16 ГБ unified memory до 128 ГБ VRAM
Минимальный порог зависит от задачи. Для моделей 7–8B достаточно 16 ГБ unified memory на Apple Silicon. Для моделей от 13B и выше нужно 16–24 ГБ VRAM на дискретной видеокарте. Для 70B+ — от 40 ГБ, то есть две карты или серверное решение.
Актуальные варианты на 2026 год:
| Карта | VRAM | Что запускает (Q4) | Применение |
|---|---|---|---|
| Apple M4 (unified) | 16–32 ГБ | 7–14B | Тихий офисный ассистент |
| RTX 5060 Ti | 16 ГБ | 7–14B | Бюджетная GPU-станция |
| RTX 5080 | 16 ГБ | 7–14B, быстрее | Корпоративный уровень |
| RTX 5090 | 32 ГБ | 30–34B | Сложная аналитика |
| 2× RTX 5090 | 64 ГБ | 70B | Корпоративный RAG |
| 4× RTX 5090 | 128 ГБ | 405B | R&D, дата-центр в офисе |
Ключевой показатель для LLM — пропускная способность памяти, а не вычислительная мощь. Именно она определяет скорость генерации (токенов в секунду). RTX 5090 с GDDR7 даёт ~1 800 ГБ/с — это вдвое больше, чем RTX 4090.
Для Apple Silicon ситуация иная: unified memory доступна и GPU, и CPU одновременно. Модели, которые не помещаются в видеопамять дискретной карты, на Apple работают медленнее, но работают — без ошибок и вылетов. Для офисного ассистента на 7–8B этого достаточно с запасом.
DeepSeek R1 и бизнес-применение
DeepSeek R1 показал, что reasoning-модели работают и на локальном железе. Оригинал на 671B параметрах недоступен для локального запуска, но команда выпустила дистиллированные версии от 1,5B до 70B — они влезают в реальное железо.
Главная особенность R1 — тег <Think>. Перед финальным ответом модель строит внутреннее рассуждение: выдвигает гипотезы, находит ошибки в логике, исправляет их — и только потом формулирует вывод. Это как черновик перед чистовиком: результат заметно лучше, особенно в программировании и логических задачах.
Для бизнеса картина складывается из двух уровней:
8–14B модели — оптимальны для RAG (Retrieval Augmented Generation). Вместо того чтобы генерировать ответ из «воспоминаний», модель читает корпоративную базу знаний и отвечает строго по ней. Шпаргалка на экзамене: точная, без фантазий, привязанная к реальным документам.
30–70B модели — уровень сложных задач: аудит контрактов, проектирование архитектуры кода, аргументированные выводы со ссылками на источники («аудиторский след»). Для них нужна видеокарта от 24 ГБ VRAM, но и качество ответов сопоставимо с облачными моделями.
Главный аргумент для корпоративного внедрения — конфиденциальность. Ни банк, ни юридическая фирма, ни оборонный подрядчик не может позволить себе отправлять рабочие данные на внешние серверы. Локальная модель решает этот вопрос радикально: данные физически не покидают инфраструктуру.
Для серверного развёртывания используют два основных стека: llama.cpp для гибкой настройки и vLLM для корпоративного продакшна. В vLLM реализован PagedAttention — механизм, который дробит память на мелкие блоки динамически вместо резервирования огромных чанков под каждый запрос. Это позволяет обрабатывать сотни параллельных запросов без падения от переполнения KV-кэша.
Итоги
- Число параметров определяет потенциал модели, но не гарантирует качество — важен баланс данных и вычислений при обучении
- Квантование GGUF Q4_K_M — практический стандарт для локального запуска: 140 ГБ превращаются в ~45 ГБ с минимальной потерей качества
- KV-кэш — скрытая статья расходов VRAM, которую легко недооценить при планировании железа
- От 16 ГБ unified memory (Apple) до 128 ГБ VRAM (4× RTX 5090) — железо под любую задачу
- DeepSeek R1 дистилляты принесли reasoning-уровень рассуждений на локальное железо
- Для бизнеса локальный ИИ — это прежде всего контроль над данными, а не экономия на API
Какую конфигурацию выбрать
Не хотите разбираться в видеокартах и квантовании — мы уже всё подобрали и настроили.
| Задача | Конфигурация Чудо 3 | Цена с предустановкой |
|---|---|---|
| Модели 7–8B, офисный ассистент | M4 Entry | от 265 200 ₽ |
| Модели 13–14B, RAG по документам | Mac Studio 64GB | от 547 800 ₽ |
| Модели 30–34B, аналитика | 2× RTX 5060 Ti | от 399 167 ₽ |
| Модели 70B, корпоративный уровень | 2× RTX 5090 | от 1 357 305 ₽ |
| Модели 405B, R&D | ЛЕВИАФАН | от 3 500 000 ₽ |
Все конфигурации — в каталоге. Скрипт для своего железа — установочный скрипт за 3 000 ₽.