Вы решили запустить нейросеть у себя — в офисе или дома. Открыли статью, а там VRAM, TFLOPS, Q4_K_M и прочие заклинания. Эта статья объясняет всё то же самое, но человеческим языком.
Нейросеть — это программа. Ей нужен компьютер
Когда вы пользуетесь ChatGPT, нейросеть работает на серверах OpenAI. Вы отправляете текст туда, получаете ответ обратно. Это удобно, но ваши данные уходят на чужие серверы.
Локальная нейросеть — та же программа, только работает на вашем компьютере. Данные никуда не уходят. Но для этого компьютер должен быть достаточно мощным.
Главный вопрос: какой именно?
Единственная характеристика, которая решает всё
Не процессор. Не оперативная память. Не диск.
Видеопамять — вот что определяет, какую нейросеть вы сможете запустить.
Видеопамять (VRAM) — это память на видеокарте. Нейросеть при работе должна целиком загрузиться в эту память. Если не помещается — либо работает в 10–20 раз медленнее, либо не запускается вовсе.
Аналогия: VRAM — это рабочий стол. Нейросеть — стопка документов. Если стол маленький, а стопка большая — придётся постоянно бегать к шкафу за нужной страницей. Работать можно, но медленно.
Нейросети бывают разных размеров
Размер нейросети измеряется в миллиардах параметров (B). Чем больше параметров — тем умнее модель, но тем больше видеопамяти ей нужно.
| Размер модели | Что умеет | Сколько видеопамяти нужно |
|---|---|---|
| 7–8B | Отвечает на вопросы, пишет тексты, простой анализ документов | 5–6 ГБ |
| 14B | Сложнее рассуждает, лучше работает с кодом | 8–9 ГБ |
| 32B | Аудит договоров, глубокая аналитика, сложная логика | 18–20 ГБ |
| 70B | Профессиональный уровень, сопоставимый с облачными моделями | 42–43 ГБ |
Все цифры — для сжатых моделей (об этом ниже). Без сжатия нужно в 3 раза больше памяти.
Сжатие: как большая модель помещается в маленькую видеокарту
В полном виде модель на 70 миллиардов параметров занимает 140 ГБ. Ни одна офисная видеокарта столько не имеет.
Решение — сжатие (квантизация). Это как JPEG для фотографий: файл становится в 3 раза меньше, а разница в качестве почти незаметна.
| Степень сжатия | Что происходит | Потеря качества |
|---|---|---|
| Без сжатия (FP16) | Полный размер, максимальное качество | 0% |
| Среднее (Q8) | Размер уменьшается вдвое | менее 1% |
| Стандартное (Q4_K_M) | Размер уменьшается в 3 раза | около 5% |
Q4_K_M — стандарт для локального запуска. При сжатии 70B-модель уменьшается со 140 ГБ до 43 ГБ, а 7B — с 14 ГБ до 5 ГБ. Потеря качества в 5% на практике незаметна: модель так же отвечает на вопросы, анализирует документы, пишет тексты.
Ещё один расход памяти, о котором забывают
Нейросеть запоминает контекст разговора — всё, что вы ей сказали в текущем диалоге. Эта «краткосрочная память» тоже занимает видеопамять, и тем больше, чем длиннее разговор.
Для модели 7B каждая тысяча слов в диалоге — примерно +0,1 ГБ. Звучит немного, но при работе с большими документами (10–30 страниц) набегает 2–4 ГБ сверх самой модели.
Совет: при выборе видеокарты закладывайте запас в 3–5 ГБ сверх размера модели.
Четыре направления: от тихого офисного до серверного
Apple Silicon — от 265 200 ₽
Чипы Apple M4 / M4 Pro / M4 Max с unified memory 16–128 ГБ. Тихие, компактные, ставятся на стол. Потребляют от 20 Вт.
Что можно запустить:
- Модели 7–14B — персональный ассистент, ответы на вопросы, черновики текстов
- На старших конфигурациях (Mac Studio 128GB) — модели до 70B
Для кого: малый офис на 3–5 человек, работа без шума.
Компактные Windows и DGX — от 328 800 ₽
AMD Ryzen AI Max+ с 128 ГБ unified memory или NVIDIA DGX Spark. Компактный корпус, но серьёзная мощность.
Что можно запустить:
- Модели 14–70B — анализ документов, код, сложная логика
- DGX Spark — до 128 ГБ для самых больших моделей
Для кого: IT-отделы, разработчики, аналитики.
GPU-станции — от 399 167 ₽
Дискретные видеокарты NVIDIA RTX 5060 Ti, 5080, 5090. От 16 до 64 ГБ видеопамяти. Формат Mid-Tower — помещаются под стол или в серверную.
Что можно запустить:
- 1× RTX 5060 Ti (16 ГБ) — модели 7–14B для команды
- 1× RTX 5090 (32 ГБ) — модели 30–34B, сложная аналитика
- 2× RTX 5090 (64 ГБ) — модели 70B, сопоставимые с облачными
Для кого: юридические фирмы, банки, команды 5–20 человек.
ЛЕВИАФАН — от 3 500 000 ₽
4× RTX 5090 = 128 ГБ видеопамяти. Threadripper PRO, 256 ГБ RAM. Запускает модель на 405B параметров целиком на GPU.
Для кого: крупные компании, R&D-центры, команды 20–50+ человек.
Можно ли без видеокарты?
Да, но медленно. Нейросеть может работать на обычном процессоре — просто в 5–15 раз медленнее.
| Где работает модель | Скорость (модель 7B) |
|---|---|
| На процессоре (CPU) | 8–18 слов/сек |
| На видеокарте (GPU) | 27–150 слов/сек |
Процессор подходит для фоновых задач — когда не нужен мгновенный ответ. Для живого диалога или работы нескольких человек одновременно нужна видеокарта.
Частые ошибки
Выбирать видеокарту по игровым обзорам. Для нейросетей важен объём памяти, а не скорость в играх. Карта с 16 ГБ памяти и средней скоростью лучше, чем карта с 12 ГБ и высокой.
Пытаться запустить большую модель на маленькой карте. Модель 32B занимает 19 ГБ — не поместится в видеокарту с 12 ГБ. Проверяйте таблицу выше перед покупкой.
Покупать AMD вместо NVIDIA. Программное обеспечение для нейросетей в 2026 году работает стабильно только на видеокартах NVIDIA и на компьютерах Apple. У AMD с этим пока проблемы.
Экономить на диске. Модель 14B весит 8–9 ГБ. С обычного жёсткого диска она загружается 3–5 минут, с SSD — 15 секунд.
Забывать про оперативную память. Минимум 32 ГБ. Если планируете запускать большие модели с частичной загрузкой в оперативную память — 64 ГБ.
Главное
- Для нейросети нужна видеокарта NVIDIA или Apple Silicon с достаточным объёмом памяти
- 16 ГБ видеопамяти — стартовый минимум, хватит для моделей 7–14B
- 32 ГБ — рабочий стандарт, открывает доступ к моделям 30–34B
- Сжатие (Q4_K_M) уменьшает модель в 3 раза почти без потери качества
- Процессор без видеокарты работает, но в 5–15 раз медленнее
Какую конфигурацию выбрать
Не хотите разбираться в комплектующих — мы уже всё подобрали и настроили.
| Задача | Конфигурация Чудо 3 | Цена с предустановкой |
|---|---|---|
| Тихий офисный ассистент, 7–8B | M4 Entry | от 265 200 ₽ |
| RAG по документам, 14B | Mac Studio 64GB | от 547 800 ₽ |
| Аналитика, 30–34B | 2× RTX 5060 Ti | от 399 167 ₽ |
| Корпоративный уровень, 70B | 2× RTX 5090 | от 1 357 305 ₽ |
| R&D, 405B | ЛЕВИАФАН | от 3 500 000 ₽ |
Все 16 конфигураций — в каталоге. Скрипт для своего железа — установочный скрипт за 3 000 ₽.