Чудо 3

Какой компьютер нужен для нейросети: требования и конфигурации в 2025

28 марта 2026 г. · 10 мин чтения

Выбор железаКонфигурацииLLM

Статья для тех, кто хочет запустить языковую модель у себя локально и не понимает, с какого железа начинать. Разберём минимальные требования для запуска нейросети, объясним, почему именно видеопамять определяет всё, и дадим три конфигурации ПК под разные бюджеты.

VRAM — главный критерий, а не TFLOPS

Когда речь идёт о запуске LLM, большинство смотрит на показатели производительности GPU из игровых обзоров: TFLOPS, тактовую частоту, количество ядер CUDA. Это ошибка.

Инференс языковой модели — задача, ограниченная пропускной способностью памяти. Веса модели должны целиком поместиться в VRAM и непрерывно перегружаться через GPU-шину при каждом генерируемом токене. Именно поэтому RTX 5090 быстрее RTX 4090 примерно на 67% в токенах/сек, хотя в игровых бенчмарках разрыв значительно меньше: пропускная способность памяти у RTX 5090 составляет 1 792 ГБ/с против 1 010 ГБ/с у RTX 4090.

Если модель не влезает в VRAM полностью, происходит частичный офлоад: данные передаются через шину PCIe (32 ГБ/с), что медленнее GPU-памяти в 30–50 раз. Скорость генерации падает с 40–50 до 2–5 токенов/сек — это уже некомфортно для диалога.

Правило выбора GPU для LLM: сначала объём VRAM, потом всё остальное.

Сколько VRAM нужно: таблица по популярным моделям

Все значения для инференса при квантизации Q4_K_M — оптимальный баланс между качеством и объёмом памяти. F16 — полная точность, без сжатия.

МодельПараметрыVRAM Q4VRAM F16Мин. GPU
Llama 3.2 8B8B~5–6 ГБ~16 ГБRTX 3060 8ГБ
Mistral 7B7B~4 ГБ~14 ГБRTX 3060 8ГБ
Qwen 3 7B7B~5–6 ГБ~14 ГБRTX 3060 8ГБ
DeepSeek R1 7B (дистилл.)7B~5–6 ГБ~14 ГБRTX 3060 8ГБ
DeepSeek R1 14B (дистилл.)14B~8–9 ГБ~28 ГБRTX 3060 12ГБ
Qwen 3 30B-A3B (MoE)30B (3B акт.)~17 ГБ~60 ГБRTX 3090 24ГБ
DeepSeek R1 32B (дистилл.)32B~18–20 ГБ~64 ГБRTX 4090 24ГБ
Qwen 3 32B32B~19 ГБ~64 ГБRTX 4090 24ГБ
Llama 3.3 70B70B~42–43 ГБ~140 ГБ2× RTX 3090 (48 ГБ)
Qwen 3 72B72B~43 ГБ~144 ГБ2× RTX 4090 (48 ГБ)

Минимальный порог для комфортной работы — 12 ГБ VRAM. RTX 3060 12ГБ позволяет запускать 7B–14B модели при Q4 на скорости 27–45 токенов/сек. Человек читает со скоростью 15–20 токенов/сек — этого достаточно.

Что такое квантизация и зачем это знать

Языковая модель — это набор весов (числовых параметров). В полной точности каждый вес хранится как 16-битное число (FP16). Квантизация уменьшает точность хранения — и тем самым сокращает объём памяти.

Формула для расчёта VRAM:

VRAM (ГБ) ≈ (Число параметров в млрд × Бит на вес) / 8

Для модели 7B при разных форматах:

Потеря качества при Q4_K_M — около 5% по сравнению с FP16. На практике это незаметно в большинстве задач: написание текста, ответы на вопросы, анализ документов. Для кодинга лучше использовать Q5_K_M или Q6_K.

ФорматПотеря качестваРекомендация
FP16 / BF16~0%Если хватает VRAM
Q8_0<1%Максимальное качество в продакшн
Q5_K_M~2%Кодинг и технические задачи
Q4_K_M~5%Оптимально для большинства
Q3_K~10–15%Только при жёстком дефиците VRAM
Q2_K~20–30%Крайний случай, качество плохое

Один нюанс, который часто упускают: KV-кэш. При длинных контекстах он занимает дополнительную VRAM поверх весов модели. Каждые 1 000 токенов контекста для 7B модели — примерно +0.11 ГБ VRAM. При контексте 32К токенов это уже +3.5 ГБ сверх весов модели. Если планируете работать с большими документами — закладывайте запас по памяти.

GPU vs CPU: когда обходиться без видеокарты

Запустить LLM на CPU технически возможно — Ollama и llama.cpp поддерживают этот режим. Вопрос в скорости.

КонфигурацияМодельСкорость
CPU (современный 16-ядерный)Llama 8B Q4~8–18 т/с
CPU (i5, 12 потоков)Llama 8B Q8~5–12 т/с
CPULlama 70B Q4~1–2 т/с
RTX 3060 12ГБLlama 8B Q4~27–45 т/с
RTX 4070 12ГБLlama 8B Q4~50–65 т/с
RTX 4090 24ГБLlama 8B Q4~120–150 т/с

CPU-инференс приемлем для фоновых задач — когда не нужна интерактивная скорость. 8–18 токенов/сек на 7B Q4 — это замедленный диалог, но вполне рабочий режим для пакетной обработки.

Скорость на CPU определяется не количеством ядер, а пропускной способностью RAM. DDR5 заметно быстрее DDR4 при CPU-инференсе. Минимум для запуска 13B–14B моделей офлайн без GPU — 64 ГБ DDR5.

GPU становится обязательным, когда нужна скорость выше 30 токенов/сек, длинный контекст (32К+), несколько параллельных пользователей или агентские цепочки с последовательными вызовами модели.

Конфигурации ПК под три бюджета

GPU в России дороже мировых цен из-за логистики. Подержанные RTX 3090 (24 ГБ) — хорошая альтернатива новым картам по соотношению VRAM/цена.

Стартовая конфигурация

RTX 3060 12ГБ (б/у) или RTX 4060 8ГБ, Ryzen 5 5600 или Core i5-12400, 32 ГБ DDR4, 1 ТБ NVMe.

Позволяет запускать: Llama 3.2 8B, Mistral 7B, Qwen 3 7B, DeepSeek R1 7B при Q4_K_M на скорости 27–45 токенов/сек. Этого достаточно для персонального ассистента или небольшой команды.

Профессиональная конфигурация

RTX 4070 12ГБ или RTX 4060 Ti 16ГБ, Ryzen 7 7700X или Core i7-13700K, 32–64 ГБ DDR5, 1–2 ТБ NVMe.

Здесь важный выбор: RTX 4070 быстрее по вычислениям, но RTX 4060 Ti с 16 ГБ VRAM открывает доступ к 14B моделям в полном Q8 (~14 ГБ). Для LLM объём VRAM важнее скорости GPU. Скорость: 20–60 токенов/сек в зависимости от модели.

Доступны: DeepSeek R1 14B, Qwen 3 14B, Code 13B и все 7B модели.

Серьёзная конфигурация

RTX 4090 24ГБ или RTX 5090 32ГБ, Ryzen 9 7950X или Core i9-14900K, 64–128 ГБ DDR5, 2 ТБ NVMe.

RTX 4090 даёт 128 токенов/сек на 8B, 40–50 т/с на 32B Q4. RTX 5090 с 32 ГБ GDDR7 — 213 т/с на 8B, впервые позволяет запускать 32B модели в Q8 без компромиссов. Разница в скорости между 4090 и 5090 около 67% — именно из-за пропускной способности памяти.

Доступны: DeepSeek R1 32B, Qwen 3 32B, Llama 3.3 70B с частичным офлоадом.

Типичные ошибки при выборе железа

RTX 4070 вместо RTX 4060 Ti. RTX 4070 быстрее по TFLOPS, но 12 ГБ против 16 ГБ — принципиальная разница для конфигурации ПК для LLM. Модели 14B при Q8 (~14 ГБ) влезут только в 16 ГБ, но не в 12 ГБ.

AMD GPU. ROCm (аналог CUDA у AMD) в 2025–2026 году сильно отстаёт: на Windows поддержки почти нет, на Linux — нестабильно. Для локальных нейросетей — только NVIDIA (CUDA) или Apple Silicon.

Попытка запустить 70B на одной карте 24 ГБ. 70B Q4_K_M = ~42 ГБ. Не помещается. Нужно либо два GPU суммарно на 48 ГБ+, либо смотреть на 32B модели — DeepSeek R1 32B или Qwen 3 32B дают сопоставимое качество при ~19–20 ГБ Q4.

Игнорирование MoE-моделей. Qwen 3 30B-A3B — архитектура Mixture of Experts с 30 миллиардами весов, но только 3 миллиарда активны при каждом вызове. Скорость как у 3B модели, качество близко к 30B dense, VRAM как у 17B Q4 (~17 ГБ). Хороший выбор для RTX 3090/4090. Однако: для загрузки нужен полный объём весов — заявленные «3B активных параметров» не означают 3B VRAM.

Мало системной RAM. При частичном офлоаде модели в RAM нужно минимум 32 ГБ, рекомендуется 64 ГБ. Иначе производительность резко падает.

HDD вместо NVMe SSD. Модель 14B при Q4 весит ~8–9 ГБ. Загрузка с HDD — 3–5 минут, с NVMe SSD — 10–20 секунд. На накопителе не экономят.

Главные выводы


Если не хочется разбираться в комплектующих самостоятельно — посмотрите на готовые ПК с предустановленным стеком: собраны под конкретные задачи, с установленными моделями и проверенной конфигурацией. Или начните с Dockerfile — разворачивается на любом совместимом железе.