Какую локальную нейросеть выбрать: подробный разбор 12 моделей

Локальных нейросетей стало так много, что выбрать — отдельная задача. За последние полтора года количество открытых моделей выросло с нескольких штук до десятков, а каждый разработчик утверждает, что именно его модель «лучшая». В этой статье разбираем каждую популярную модель: кто и зачем её создал, в чём её ДНК, где она сильна и для каких задач подходит.

Если вам нужен ликбез по параметрам, квантизации и требованиям к железу — начните с нашего гида по выбору компьютера для нейросети. Здесь мы предполагаем, что вы понимаете, что такое «70B Q4» и сколько памяти это занимает.

DeepSeek: китайский стартап, который потряс индустрию

История DeepSeek — одна из самых неожиданных в мире ИИ. Компанию основал Лян Вэньфэн, глава хедж-фонда High-Flyer Capital Management, управлявшего активами на 8 миллиардов долларов. В 2023 году он решил, что будущее — за искусственным интеллектом, и направил прибыль фонда на создание собственной ИИ-лаборатории.

Результат превзошёл ожидания всех. DeepSeek V3, выпущенная в декабре 2024 года, показала результаты на уровне лучших закрытых моделей — при этом весь код и веса были опубликованы под лицензией MIT. Стоимость обучения составила менее 6 миллионов долларов — в десятки раз меньше, чем у конкурентов.

Две модели — два подхода

DeepSeek V3 — универсальная модель. 671 миллиард параметров, но благодаря архитектуре MoE (Mixture of Experts) при каждом запросе активируются только 37 миллиардов. Это значит, что модель «знает» как 671B, но «думает» как 37B — быстро и эффективно.

DeepSeek R1 — модель с рассуждениями. Та же архитектура, но обученная через reinforcement learning «думать вслух». R1 разбивает сложную задачу на шаги, проверяет каждый, и только потом выдаёт ответ. На математических задачах AIME она набрала 79,8% — уровень лучших закрытых моделей.

671Bпараметров, 37B активных (MoE)

97,3%R1 на MATH-500 (уровень лучших)

MITлицензия — полная свобода

Дистиллированные версии — главная ценность для локального запуска

Полная модель требует ~386 ГБ памяти. Но команда DeepSeek выпустила 6 дистиллированных версий R1 — от 1,5B до 70B параметров. Версия на 32B (занимает ~18 ГБ в Q4) помещается на одну видеокарту RTX 4090 и обходит по математике модель OpenAI o1-mini.

Для каких задач

V3 — универсальный помощник, код, длинные документы (128K контекст)
R1 32B — сложные рассуждения, математика, анализ, когда качество важнее скорости
R1 8B/14B — бюджетный вариант для базовых задач с рассуждениями

Русский язык: хорошо

Тренировочные данные включают русский. Качество заметно выше, чем у моделей Meta.

DeepSeek R1 Distill 32B — лучшее соотношение качества рассуждений к требованиям железа. Одна видеокарта, 18 ГБ памяти, результаты выше o1-mini.

Meta: как Facebook изменил правила игры

В 2023 году произошло событие, которое перевернуло рынок: Meta (бывший Facebook) выложила в открытый доступ свою языковую модель. Это было стратегическое решение Марка Цукерберга: если ИИ станет «общей инфраструктурой» — выигрывает тот, у кого больше всего пользователей и приложений. А это — Meta.

С тех пор каждое поколение улучшалось. Версия 3.3 70B, вышедшая в декабре 2024, показала 95% результатов модели 405B — при этом требуя в 6 раз меньше ресурсов.

Линейка

Версия	Параметры	Особенность
3.2 1B / 3B	1–3B	Для смартфонов и встраиваемых устройств
3.2 Vision 11B	11B	Мультимодальность: текст + изображения
3.3 70B	70B	Основная рабочая модель, заменила 405B
3.1 405B	405B	Флагман, но 3.3 70B практически не уступает

ДНК модели

Модели Meta — «рабочие лошадки» индустрии. Они не лидируют ни по рассуждениям (DeepSeek R1 сильнее), ни по коду (Alibaba Coder лучше), но хорошо справляются со всем. Главное преимущество — экосистема: тысячи fine-tune'ов, инструментов и интеграций.

Слабое место — русский язык

Русский не входит в список 8 официально поддерживаемых языков. Модель понимает русский текст, но генерирует заметно хуже, чем на английском. Для русскоязычных задач существуют community-дообучения (Saiga, Vikhr), но базовая модель уступает DeepSeek и Alibaba.

Лицензия Meta — не MIT и не Apache. Бесплатно для компаний с менее 700 миллионов активных пользователей в месяц. Для большинства бизнесов это не ограничение, но формально лицензия не «свободная».

Для каких задач

3.3 70B — основная модель для англоязычных задач, когда нужна экосистема
3.2 Vision 11B — анализ изображений и документов (8 ГБ в Q4)
3.2 1B/3B — ИИ на мобильных устройствах и IoT

Alibaba: тихий лидер из Ханчжоу

Alibaba Cloud запустила своё семейство моделей без фанфар и пресс-конференций. Просто выложила на HuggingFace — и модели заговорили сами за себя. К апрелю 2025 года линейка насчитывает 8 размеров: от крохотной 0,6B до флагмана с 235 миллиардами параметров. И все — под лицензией Apache 2.0.

Почему это важно

У Alibaba самая широкая линейка среди всех разработчиков. Какое бы железо у вас ни было — от смартфона до серверной стойки — найдётся подходящий размер. Это делает семейство универсальным выбором для любого бюджета.

8 размеровот 0,6B до 235B

92,7%Coder 32B на HumanEval

119поддерживаемых языков

Гибридное мышление — уникальная функция

Третье поколение моделей — первое семейство с гибридным режимом мышления. Модель сама решает, когда нужно «подумать» (разбить задачу на шаги, как DeepSeek R1), а когда ответить сразу. На сложных задачах включается reasoning, на простых — мгновенный ответ. Не нужно выбирать между «быстрой» и «умной» моделью.

Код-модель — лучшая среди открытых

Отдельная линейка для кода (версия 2.5) на 32B параметров показывает 92,7% на HumanEval — это выше, чем у любой другой открытой модели. Поддерживает 92 языка программирования и Fill-in-the-Middle (автодополнение прямо в IDE).

Русский язык: хорошо

119 поддерживаемых языков, включая русский. Качество генерации на русском — одно из лучших среди международных моделей. Неудивительно: российские разработчики (T-Pro, T-Lite) выбрали именно эту базу для своих русскоязычных дообучений.

Для каких задач

32B — универсальный помощник для команды (помещается на RTX 4090 в Q4)
14B — баланс скорости и качества для одного пользователя
Coder 32B — разработка, code review, генерация кода
0,6B–4B — встраиваемые устройства, edge-вычисления

Google Gemma 3: ИИ-модель, которая видит

Google выпускает открытые модели не из альтруизма — это способ привязать разработчиков к экосистеме Google Cloud, TensorFlow и Android. Но результат впечатляет: Gemma 3 27B обходит по предпочтениям людей модели в 15 раз крупнее.

Главная особенность — нативная мультимодальность

В отличие от конкурентов, где модуль обработки изображений «прикручен» к текстовой модели отдельно, в Gemma 3 vision-кодировщик — часть архитектуры. Модель проектировалась как мультимодальная с самого начала. Размеры 4B, 12B и 27B принимают и текст, и изображения. Только 1B — чисто текстовая.

QAT — квантизация без потерь

Google тренировала квантизованные версии прямо во время обучения (Quantization-Aware Training). Это значит, что 27B-модель в int4 (14 ГБ вместо 54 ГБ) теряет значительно меньше качества, чем при обычной пост-квантизации. Она помещается на одну RTX 3090.

128K токеновконтекстное окно у всех размеров Gemma 3

Слабое место — русский

140+ языков заявлено, но пользователи отмечают деградацию качества на русском по сравнению с английским, особенно в малых размерах. Для русскоязычных задач Gemma 3 уступает моделям Alibaba и DeepSeek.

Для каких задач

27B — анализ документов с изображениями, графиков, чертежей (14 ГБ в Q4)
12B — мультимодальный ассистент для ноутбука (6,6 ГБ в Q4)
4B — edge-устройства с vision-задачами

Microsoft Phi-4: доказательство, что размер не главное

Философия Phi — «качество данных важнее количества параметров». Microsoft тренировала модель на специально подготовленных синтетических данных «учебникового качества» и получила результат, который перевернул представления о масштабировании.

14B бьёт 70B

На MMLU Phi-4 набирает 84,8 — больше, чем модель Meta 3.3 70B (86, но при 5-кратном размере). На MATH — 80,4, что выше GPT-4o (74,6). При этом модель занимает ~9 ГБ в Q4 и работает на любой современной видеокарте.

14Bпараметров Phi-4

70Bпараметров Meta 3.3 (и Phi побеждает на MATH)

Главное ограничение — контекст 16K

У Phi-4 (14B) контекстное окно — всего 16 384 токена. Это ~12 страниц текста. Для чтения длинных документов, работы с большими кодовыми базами или RAG с множеством чанков — критически мало. Для сравнения: DeepSeek и Alibaba поддерживают 128K.

Мини-версия (3,8B) имеет 128K контекст, но уступает по качеству.

Лицензия: MIT

Полная свобода, включая коммерческое использование. Без ограничений.

Для каких задач

Математика, логика, STEM-задачи — сильнейшая модель в своём размере
Быстрый помощник для коротких запросов на бюджетном железе (9 ГБ)
Не подходит: длинные документы, RAG, многотурновые диалоги с длинной историей

Mistral: европейский ответ Кремниевой долине

Mistral AI — французский стартап, основанный в 2023 году бывшими исследователями Google DeepMind и Meta. Компания привлекла более 600 миллионов евро инвестиций и стала главным европейским игроком на рынке открытых моделей.

Почему это важно для бизнеса

Mistral — единственный крупный разработчик из ЕС. Для компаний, которым важен цифровой суверенитет и соответствие GDPR, это аргумент. Модели тренируются с учётом европейских требований к данным.

Small 3.1 — лучший «средний» вариант

Модель на 24B параметров с vision, контекстом 128K и лучшей среди западных моделей поддержкой русского языка. Токенизатор специально оптимизирован для нелатинских языков. В Q4 занимает ~15 ГБ — помещается на RTX 4090 или Mac с 32 ГБ.

Devstral — серьёзный код-агент

Отдельная модель для разработки. Devstral Small 2 (24B) набирает 68% на SWE-Bench Verified — бенчмарке, который тестирует реальные задачи из GitHub-репозиториев (не синтетический код). Контекстное окно — 256K токенов. Интегрируется с VS Code через расширение Cline.

Лицензия: Apache 2.0

Полностью свободная, без ограничений.

Для каких задач

Small 3.1 — универсальный мультимодальный ассистент с хорошим русским (15 ГБ)
Devstral — агент для реальных задач разработки (редактирование файлов, тесты)
Nemo 12B — лёгкий ассистент с огромным контекстом 128K (7 ГБ)

Российские модели: что можно запустить локально

Ландшафт российских открытых моделей за последний год изменился кардинально. Если в 2023 году существовал только ruGPT-3.5 от Сбера, то к 2026 году доступно 9+ семейств от четырёх крупных компаний и активного сообщества.

Сбер: GigaChat 3.1 — три размера под MIT

Сбер выпустил сразу три открытых модели под лицензией MIT:

Lightning (10B, 1,8B активных) — самая эффективная модель для слабого железа. Архитектура MoE: при 10B общих параметров активируются только 1,8B. Занимает ~6 ГБ в Q4. Работает на ноутбуке. Конкурирует с GPT-4o mini по оценкам пользователей.

Lite (20B, 3B активных) — средний вариант. Скорость 3B-модели, качество 8B. Контекст 131K.

Ultra (702B, 36B активных) — флагман. Лидер бенчмарка MERA (основной русскоязычный бенчмарк). Контекст 256K. Требует мультигипиного кластера.

MITлицензия всех трёх моделей

~6 ГБLightning на ноутбуке (Q4)

MERA #1Ultra — лидер русского бенчмарка

Т-Банк: T-Pro 2.1 — лучший русский на 32B

Т-Банк (бывший Тинькофф) пошёл другим путём: взял за основу модель Alibaba (32B) и провёл глубокое дообучение на русском языке. Результат: T-Pro 2.1 — лучшая открытая модель до 35B параметров на русскоязычных бенчмарках.

Ключевая инновация — адаптированный токенизатор. Русский текст кодируется плотнее, чем в оригинальной модели, что даёт двукратное ускорение генерации на русском. Лицензия Apache 2.0.

T-Lite 1.0 (7B) — младший брат T-Pro. Лучшая открытая русская модель в своём весовом классе. 100+ миллиардов токенов русского текста при дообучении.

Яндекс: только Lite

YandexGPT 5 Lite (8B) — единственная открытая модель Яндекса. Полные версии (Pro, 5.1) доступны только через API Yandex Cloud. Лицензия — коммерческое использование до 10 миллионов токенов в месяц. Выше — по договору.

Комьюнити: Saiga и Vikhr

Saiga (Илья Гусев) — серия дообучений международных моделей для русского. Варианты на базе 8B, 12B и других моделей. Самый популярный community-проект: быстрый способ получить хороший русский из любой базовой модели.

Vikhr — более глубокий подход. В отличие от Saiga, Vikhr делает полное дообучение (не LoRA), с адаптацией токенизатора. Версия на 12B на базе Mistral Nemo — двуязычная (русский/английский). Команда Vikhr также ведёт Russian LLM Leaderboard на HuggingFace.

МТС: Cotype и Kodify

Cotype Nano (2B) — ультралёгкая модель для edge-устройств. Оптимизирована для Intel CPU. Работает на смартфоне.

Kodify Nano (1,5B) — модель для кода. 90 языков программирования. Поставляется с плагинами для IDE.

Рекомендация для русского языка: T-Pro 2.1 (32B) на мощном железе, GigaChat Lightning (10B) на слабом, T-Lite 1.0 (7B) — золотая середина. Все три — Apache 2.0 или MIT.

Модели для кода: когда нужен отдельный инструмент

Универсальная модель пишет код, но специализированная пишет его лучше. Главное отличие — в данных для обучения и в архитектурных решениях.

Лидеры

Coder 32B (Alibaba) — 92,7% на HumanEval, 92 языка программирования. Поддерживает FIM (Fill-in-the-Middle) — умеет дописывать код в середину файла, а не только в конец. Это критично для IDE-интеграции через Continue.dev, Tabby или Cody.

Devstral Small 2 (Mistral, 24B) — лидер SWE-Bench (68%). Этот бенчмарк тестирует не синтетические задачи, а реальные issue из GitHub-репозиториев. Модель умеет читать несколько файлов, понимать контекст проекта и вносить изменения. Контекст 256K.

DeepSeek Coder V2 Lite (16B) — MoE-архитектура (2,4B активных). Помещается на 8 ГБ видеокарте. 300+ языков. MIT-лицензия.

StarCoder 2 (15B) — уникален этичным подходом: обучен на 600+ языках из открытых репозиториев с чистыми лицензиями. Менее производителен, но лицензионно безупречен.

Когда код-модель лучше универсальной

Автодополнение в IDE (FIM) — только код-модели
Большие рефакторинги и многофайловые правки (SWE-Bench задачи) — Devstral
Максимальная точность генерации (HumanEval 92,7%) — Coder 32B
Бюджетное железо + код — DeepSeek Coder Lite (8 ГБ)

Мультимодальные: когда нейросеть должна видеть

Мультимодальная модель принимает на вход не только текст, но и изображения. На практике это означает:

Загрузить скан договора и спросить «какие сроки оплаты?»
Показать график продаж и попросить анализ
Сфотографировать доску с заметками и получить текстовую расшифровку
Отправить скриншот ошибки и получить объяснение

Три лидера

Gemma 3 27B — vision встроен в архитектуру. Лучшая интеграция текста и изображений. 86,6% на DocVQA (понимание документов). 14 ГБ в Q4.

Vision 11B (Meta) — первая открытая мультимодальная модель от Meta. Лёгкая (8 ГБ). Сильна на графиках (85,5% ChartQA) и диаграммах (92,3% AI2 Diagram). Но русский не поддерживается официально.

Pixtral 12B (Mistral) — лучший OCR среди моделей до 12B. 97% точности распознавания текста. Apache 2.0. Европейское происхождение.

Когда мультимодальность нужна

Работа с документами: сканы, PDF, фотографии бумаг
Анализ визуальных данных: графики, дашборды, чертежи
Контент: описание изображений, генерация alt-текстов

Когда не нужна

Если все ваши задачи — текстовые (чат, код, анализ текста), мультимодальная модель добавляет сложности без пользы. Лучше взять текстовую модель того же размера — она будет работать быстрее.

Сводная таблица: все модели на одной странице

Модель	Размеры	VRAM (Q4)	Русский	Код	Лицензия	Для чего
DeepSeek V3	671B MoE	~386 ГБ	+	++	MIT	Универсал (кластер)
DeepSeek R1 distill	1,5–70B	2–40 ГБ	+	+	MIT	Рассуждения, математика
Meta 3.3	70B	~40 ГБ	~	+	Meta License	Экосистема, EN-задачи
Meta 3.2 Vision	11B	~8 ГБ	-	~	Meta License	Документы с картинками
Alibaba (3 поколение)	0,6–235B	0,5–143 ГБ	+	++	Apache 2.0	Универсал, любой бюджет
Alibaba Coder 2.5	1,5–32B	1–20 ГБ	+	+++	Apache 2.0	Код, IDE-интеграция
Gemma 3	1–27B	0,7–14 ГБ	~	+	Apache 2.0	Vision-задачи
Phi-4	3,8–14B	2,5–9 ГБ	~	+	MIT	Математика, STEM
Mistral Small 3.1	24B	~15 ГБ	+	+	Apache 2.0	Мультимодальный ассистент
Devstral	24B	~15 ГБ	~	+++	Apache 2.0	Код-агент (SWE-Bench)
GigaChat Lightning	10B MoE	~6 ГБ	++	~	MIT	Русский на слабом железе
T-Pro 2.1	32B	~20 ГБ	+++	+	Apache 2.0	Лучший русский до 35B
T-Lite 1.0	7B	~5 ГБ	++	~	Apache 2.0	Русский, баланс
YandexGPT Lite	8B	~5 ГБ	++	~	Custom (10M/мес)	Русский, факты о России

Обозначения: +++ отлично | ++ хорошо | + нормально | ~ посредственно | - слабо

Какую выбрать: дерево решений

По задаче

Нужен русский язык:

Мощное железо (24+ ГБ) → T-Pro 2.1 (32B)
Среднее (8–16 ГБ) → T-Lite 1.0 (7B) или GigaChat Lightning (10B)
Минимальное → GigaChat Lightning Q4 (6 ГБ)

Нужен код:

Автодополнение в IDE → Coder 32B (FIM, 20 ГБ)
Редактирование проекта (SWE-Bench) → Devstral 24B (15 ГБ)
Бюджетный вариант → DeepSeek Coder Lite (8 ГБ)

Нужны рассуждения и математика:

DeepSeek R1 32B (18 ГБ)
Бюджетный вариант → Phi-4 14B (9 ГБ)

Нужна работа с изображениями:

Gemma 3 27B (14 ГБ) — лучшая интеграция vision
Gemma 3 12B (6,6 ГБ) — бюджетный мультимодальный
Pixtral 12B (16 ГБ) — лучший OCR

Нужен универсальный помощник:

Alibaba 32B (19 ГБ) — баланс всего
Mistral Small 3.1 (15 ГБ) — если важен русский + vision
DeepSeek V3 — если есть кластер / Mac-ферма

По доступной памяти

Память	Лучший выбор	Альтернатива
4–6 ГБ	GigaChat Lightning Q4	T-Lite 1.0 Q4
8 ГБ	DeepSeek R1 Distill 8B	Gemma 3 12B Q4
16 ГБ	Mistral Small 3.1 Q4	Gemma 3 27B Q4
24 ГБ	T-Pro 2.1 Q4 или Coder 32B Q4	DeepSeek R1 32B
48 ГБ	Meta 3.3 70B Q4	Alibaba 72B Q4
64+ ГБ	DeepSeek R1 70B	Alibaba 72B Q8

Моделей десятки, но правильный выбор — один. Он зависит от вашей задачи, вашего языка и вашего железа. Не от маркетинга.

Не хотите разбираться в моделях самостоятельно? Закажите компьютер с предустановленной нейросетью — мы подберём модель под ваши задачи.

DeepSeek: китайский стартап, который потряс индустрию

Две модели — два подхода

Дистиллированные версии — главная ценность для локального запуска

Для каких задач

Русский язык: хорошо

Meta: как Facebook изменил правила игры

Линейка

ДНК модели

Слабое место — русский язык

Для каких задач

Alibaba: тихий лидер из Ханчжоу

Почему это важно

Гибридное мышление — уникальная функция

Код-модель — лучшая среди открытых

Русский язык: хорошо

Для каких задач

Google Gemma 3: ИИ-модель, которая видит

Главная особенность — нативная мультимодальность

QAT — квантизация без потерь

Слабое место — русский

Для каких задач

Microsoft Phi-4: доказательство, что размер не главное

14B бьёт 70B

Главное ограничение — контекст 16K

Лицензия: MIT

Для каких задач

Mistral: европейский ответ Кремниевой долине

Почему это важно для бизнеса

Small 3.1 — лучший «средний» вариант

Devstral — серьёзный код-агент

Лицензия: Apache 2.0

Для каких задач

Российские модели: что можно запустить локально

Сбер: GigaChat 3.1 — три размера под MIT

Т-Банк: T-Pro 2.1 — лучший русский на 32B

Яндекс: только Lite

Комьюнити: Saiga и Vikhr

МТС: Cotype и Kodify

Модели для кода: когда нужен отдельный инструмент

Лидеры

Когда код-модель лучше универсальной

Мультимодальные: когда нейросеть должна видеть

Три лидера

Когда мультимодальность нужна

Когда не нужна

Сводная таблица: все модели на одной странице

Какую выбрать: дерево решений

По задаче

По доступной памяти

Источники