Статья для тех, кто хочет запустить языковую модель у себя локально и не понимает, с какого железа начинать. Разберём минимальные требования для запуска нейросети, объясним, почему именно видеопамять определяет всё, и дадим три конфигурации ПК под разные бюджеты.
VRAM — главный критерий, а не TFLOPS
Когда речь идёт о запуске LLM, большинство смотрит на показатели производительности GPU из игровых обзоров: TFLOPS, тактовую частоту, количество ядер CUDA. Это ошибка.
Инференс языковой модели — задача, ограниченная пропускной способностью памяти. Веса модели должны целиком поместиться в VRAM и непрерывно перегружаться через GPU-шину при каждом генерируемом токене. Именно поэтому RTX 5090 быстрее RTX 4090 примерно на 67% в токенах/сек, хотя в игровых бенчмарках разрыв значительно меньше: пропускная способность памяти у RTX 5090 составляет 1 792 ГБ/с против 1 010 ГБ/с у RTX 4090.
Если модель не влезает в VRAM полностью, происходит частичный офлоад: данные передаются через шину PCIe (32 ГБ/с), что медленнее GPU-памяти в 30–50 раз. Скорость генерации падает с 40–50 до 2–5 токенов/сек — это уже некомфортно для диалога.
Правило выбора GPU для LLM: сначала объём VRAM, потом всё остальное.
Сколько VRAM нужно: таблица по популярным моделям
Все значения для инференса при квантизации Q4_K_M — оптимальный баланс между качеством и объёмом памяти. F16 — полная точность, без сжатия.
| Модель | Параметры | VRAM Q4 | VRAM F16 | Мин. GPU |
|---|---|---|---|---|
| Llama 3.2 8B | 8B | ~5–6 ГБ | ~16 ГБ | RTX 3060 8ГБ |
| Mistral 7B | 7B | ~4 ГБ | ~14 ГБ | RTX 3060 8ГБ |
| Qwen 3 7B | 7B | ~5–6 ГБ | ~14 ГБ | RTX 3060 8ГБ |
| DeepSeek R1 7B (дистилл.) | 7B | ~5–6 ГБ | ~14 ГБ | RTX 3060 8ГБ |
| DeepSeek R1 14B (дистилл.) | 14B | ~8–9 ГБ | ~28 ГБ | RTX 3060 12ГБ |
| Qwen 3 30B-A3B (MoE) | 30B (3B акт.) | ~17 ГБ | ~60 ГБ | RTX 3090 24ГБ |
| DeepSeek R1 32B (дистилл.) | 32B | ~18–20 ГБ | ~64 ГБ | RTX 4090 24ГБ |
| Qwen 3 32B | 32B | ~19 ГБ | ~64 ГБ | RTX 4090 24ГБ |
| Llama 3.3 70B | 70B | ~42–43 ГБ | ~140 ГБ | 2× RTX 3090 (48 ГБ) |
| Qwen 3 72B | 72B | ~43 ГБ | ~144 ГБ | 2× RTX 4090 (48 ГБ) |
Минимальный порог для комфортной работы — 12 ГБ VRAM. RTX 3060 12ГБ позволяет запускать 7B–14B модели при Q4 на скорости 27–45 токенов/сек. Человек читает со скоростью 15–20 токенов/сек — этого достаточно.
Что такое квантизация и зачем это знать
Языковая модель — это набор весов (числовых параметров). В полной точности каждый вес хранится как 16-битное число (FP16). Квантизация уменьшает точность хранения — и тем самым сокращает объём памяти.
Формула для расчёта VRAM:
VRAM (ГБ) ≈ (Число параметров в млрд × Бит на вес) / 8
Для модели 7B при разных форматах:
- FP16 (16 бит): 7 × 16 / 8 = 14 ГБ
- Q8_0 (8 бит): 7 × 8 / 8 = 7 ГБ
- Q4_K_M (~4.65 бит): 7 × 4.65 / 8 ≈ 4 ГБ
Потеря качества при Q4_K_M — около 5% по сравнению с FP16. На практике это незаметно в большинстве задач: написание текста, ответы на вопросы, анализ документов. Для кодинга лучше использовать Q5_K_M или Q6_K.
| Формат | Потеря качества | Рекомендация |
|---|---|---|
| FP16 / BF16 | ~0% | Если хватает VRAM |
| Q8_0 | <1% | Максимальное качество в продакшн |
| Q5_K_M | ~2% | Кодинг и технические задачи |
| Q4_K_M | ~5% | Оптимально для большинства |
| Q3_K | ~10–15% | Только при жёстком дефиците VRAM |
| Q2_K | ~20–30% | Крайний случай, качество плохое |
Один нюанс, который часто упускают: KV-кэш. При длинных контекстах он занимает дополнительную VRAM поверх весов модели. Каждые 1 000 токенов контекста для 7B модели — примерно +0.11 ГБ VRAM. При контексте 32К токенов это уже +3.5 ГБ сверх весов модели. Если планируете работать с большими документами — закладывайте запас по памяти.
GPU vs CPU: когда обходиться без видеокарты
Запустить LLM на CPU технически возможно — Ollama и llama.cpp поддерживают этот режим. Вопрос в скорости.
| Конфигурация | Модель | Скорость |
|---|---|---|
| CPU (современный 16-ядерный) | Llama 8B Q4 | ~8–18 т/с |
| CPU (i5, 12 потоков) | Llama 8B Q8 | ~5–12 т/с |
| CPU | Llama 70B Q4 | ~1–2 т/с |
| RTX 3060 12ГБ | Llama 8B Q4 | ~27–45 т/с |
| RTX 4070 12ГБ | Llama 8B Q4 | ~50–65 т/с |
| RTX 4090 24ГБ | Llama 8B Q4 | ~120–150 т/с |
CPU-инференс приемлем для фоновых задач — когда не нужна интерактивная скорость. 8–18 токенов/сек на 7B Q4 — это замедленный диалог, но вполне рабочий режим для пакетной обработки.
Скорость на CPU определяется не количеством ядер, а пропускной способностью RAM. DDR5 заметно быстрее DDR4 при CPU-инференсе. Минимум для запуска 13B–14B моделей офлайн без GPU — 64 ГБ DDR5.
GPU становится обязательным, когда нужна скорость выше 30 токенов/сек, длинный контекст (32К+), несколько параллельных пользователей или агентские цепочки с последовательными вызовами модели.
Конфигурации ПК под три бюджета
GPU в России дороже мировых цен из-за логистики. Подержанные RTX 3090 (24 ГБ) — хорошая альтернатива новым картам по соотношению VRAM/цена.
Стартовая конфигурация
RTX 3060 12ГБ (б/у) или RTX 4060 8ГБ, Ryzen 5 5600 или Core i5-12400, 32 ГБ DDR4, 1 ТБ NVMe.
Позволяет запускать: Llama 3.2 8B, Mistral 7B, Qwen 3 7B, DeepSeek R1 7B при Q4_K_M на скорости 27–45 токенов/сек. Этого достаточно для персонального ассистента или небольшой команды.
Профессиональная конфигурация
RTX 4070 12ГБ или RTX 4060 Ti 16ГБ, Ryzen 7 7700X или Core i7-13700K, 32–64 ГБ DDR5, 1–2 ТБ NVMe.
Здесь важный выбор: RTX 4070 быстрее по вычислениям, но RTX 4060 Ti с 16 ГБ VRAM открывает доступ к 14B моделям в полном Q8 (~14 ГБ). Для LLM объём VRAM важнее скорости GPU. Скорость: 20–60 токенов/сек в зависимости от модели.
Доступны: DeepSeek R1 14B, Qwen 3 14B, Code 13B и все 7B модели.
Серьёзная конфигурация
RTX 4090 24ГБ или RTX 5090 32ГБ, Ryzen 9 7950X или Core i9-14900K, 64–128 ГБ DDR5, 2 ТБ NVMe.
RTX 4090 даёт 128 токенов/сек на 8B, 40–50 т/с на 32B Q4. RTX 5090 с 32 ГБ GDDR7 — 213 т/с на 8B, впервые позволяет запускать 32B модели в Q8 без компромиссов. Разница в скорости между 4090 и 5090 около 67% — именно из-за пропускной способности памяти.
Доступны: DeepSeek R1 32B, Qwen 3 32B, Llama 3.3 70B с частичным офлоадом.
Типичные ошибки при выборе железа
RTX 4070 вместо RTX 4060 Ti. RTX 4070 быстрее по TFLOPS, но 12 ГБ против 16 ГБ — принципиальная разница для конфигурации ПК для LLM. Модели 14B при Q8 (~14 ГБ) влезут только в 16 ГБ, но не в 12 ГБ.
AMD GPU. ROCm (аналог CUDA у AMD) в 2025–2026 году сильно отстаёт: на Windows поддержки почти нет, на Linux — нестабильно. Для локальных нейросетей — только NVIDIA (CUDA) или Apple Silicon.
Попытка запустить 70B на одной карте 24 ГБ. 70B Q4_K_M = ~42 ГБ. Не помещается. Нужно либо два GPU суммарно на 48 ГБ+, либо смотреть на 32B модели — DeepSeek R1 32B или Qwen 3 32B дают сопоставимое качество при ~19–20 ГБ Q4.
Игнорирование MoE-моделей. Qwen 3 30B-A3B — архитектура Mixture of Experts с 30 миллиардами весов, но только 3 миллиарда активны при каждом вызове. Скорость как у 3B модели, качество близко к 30B dense, VRAM как у 17B Q4 (~17 ГБ). Хороший выбор для RTX 3090/4090. Однако: для загрузки нужен полный объём весов — заявленные «3B активных параметров» не означают 3B VRAM.
Мало системной RAM. При частичном офлоаде модели в RAM нужно минимум 32 ГБ, рекомендуется 64 ГБ. Иначе производительность резко падает.
HDD вместо NVMe SSD. Модель 14B при Q4 весит ~8–9 ГБ. Загрузка с HDD — 3–5 минут, с NVMe SSD — 10–20 секунд. На накопителе не экономят.
Главные выводы
- Минимальные требования для запуска нейросети комфортно: NVIDIA GPU с 12+ ГБ VRAM, 32 ГБ RAM, NVMe SSD, CPU с AVX2
- VRAM важнее TFLOPS: объём видеопамяти определяет, какие модели доступны; скорость GPU влияет на токены/сек, но не на доступность модели
- Q4_K_M — стандарт для потребительского железа: -70% VRAM против FP16, потеря качества ~5%, скорость выше
- Конфигурация ПК для LLM стартует с RTX 3060 12ГБ: Llama 3.2 8B, Mistral 7B, Qwen 3 7B — 27–45 токенов/сек
- Для 32B моделей нужен RTX 4090 24ГБ: DeepSeek R1 32B, Qwen 3 32B — 40–50 токенов/сек при Q4
- Для 70B+ — два GPU или Apple M-серия с unified memory: модели класса Llama 3.3 70B требуют 48 ГБ+ VRAM при Q4
- CPU-инференс реален, но медленный: 8–18 токенов/сек на 7B Q4 — приемлемо для фоновых задач, не для диалога
Если не хочется разбираться в комплектующих самостоятельно — посмотрите на готовые ПК с предустановленным стеком: собраны под конкретные задачи, с установленными моделями и проверенной конфигурацией. Или начните с Dockerfile — разворачивается на любом совместимом железе.