Чудо 3

Какую локальную нейросеть выбрать: подробный разбор 12 моделей

11 апреля 2026 г. · 22 мин чтения

НейросетиСравнениеВыбор моделиLLM

Локальных нейросетей стало так много, что выбрать — отдельная задача. За последние полтора года количество открытых моделей выросло с нескольких штук до десятков, а каждый разработчик утверждает, что именно его модель «лучшая». В этой статье разбираем каждую популярную модель: кто и зачем её создал, в чём её ДНК, где она сильна и для каких задач подходит.

Если вам нужен ликбез по параметрам, квантизации и требованиям к железу — начните с нашего гида по выбору компьютера для нейросети. Здесь мы предполагаем, что вы понимаете, что такое «70B Q4» и сколько памяти это занимает.


DeepSeek: китайский стартап, который потряс индустрию

История DeepSeek — одна из самых неожиданных в мире ИИ. Компанию основал Лян Вэньфэн, глава хедж-фонда High-Flyer Capital Management, управлявшего активами на 8 миллиардов долларов. В 2023 году он решил, что будущее — за искусственным интеллектом, и направил прибыль фонда на создание собственной ИИ-лаборатории.

Результат превзошёл ожидания всех. DeepSeek V3, выпущенная в декабре 2024 года, показала результаты на уровне лучших закрытых моделей — при этом весь код и веса были опубликованы под лицензией MIT. Стоимость обучения составила менее 6 миллионов долларов — в десятки раз меньше, чем у конкурентов.

Две модели — два подхода

DeepSeek V3 — универсальная модель. 671 миллиард параметров, но благодаря архитектуре MoE (Mixture of Experts) при каждом запросе активируются только 37 миллиардов. Это значит, что модель «знает» как 671B, но «думает» как 37B — быстро и эффективно.

DeepSeek R1 — модель с рассуждениями. Та же архитектура, но обученная через reinforcement learning «думать вслух». R1 разбивает сложную задачу на шаги, проверяет каждый, и только потом выдаёт ответ. На математических задачах AIME она набрала 79,8% — уровень лучших закрытых моделей.

671Bпараметров, 37B активных (MoE)
97,3%R1 на MATH-500 (уровень лучших)
MITлицензия — полная свобода

Дистиллированные версии — главная ценность для локального запуска

Полная модель требует ~386 ГБ памяти. Но команда DeepSeek выпустила 6 дистиллированных версий R1 — от 1,5B до 70B параметров. Версия на 32B (занимает ~18 ГБ в Q4) помещается на одну видеокарту RTX 4090 и обходит по математике модель OpenAI o1-mini.

Для каких задач

Русский язык: хорошо

Тренировочные данные включают русский. Качество заметно выше, чем у моделей Meta.

DeepSeek R1 Distill 32B — лучшее соотношение качества рассуждений к требованиям железа. Одна видеокарта, 18 ГБ памяти, результаты выше o1-mini.


Meta: как Facebook изменил правила игры

В 2023 году произошло событие, которое перевернуло рынок: Meta (бывший Facebook) выложила в открытый доступ свою языковую модель. Это было стратегическое решение Марка Цукерберга: если ИИ станет «общей инфраструктурой» — выигрывает тот, у кого больше всего пользователей и приложений. А это — Meta.

С тех пор каждое поколение улучшалось. Версия 3.3 70B, вышедшая в декабре 2024, показала 95% результатов модели 405B — при этом требуя в 6 раз меньше ресурсов.

Линейка

ВерсияПараметрыОсобенность
3.2 1B / 3B1–3BДля смартфонов и встраиваемых устройств
3.2 Vision 11B11BМультимодальность: текст + изображения
3.3 70B70BОсновная рабочая модель, заменила 405B
3.1 405B405BФлагман, но 3.3 70B практически не уступает

ДНК модели

Модели Meta — «рабочие лошадки» индустрии. Они не лидируют ни по рассуждениям (DeepSeek R1 сильнее), ни по коду (Alibaba Coder лучше), но хорошо справляются со всем. Главное преимущество — экосистема: тысячи fine-tune'ов, инструментов и интеграций.

Слабое место — русский язык

Русский не входит в список 8 официально поддерживаемых языков. Модель понимает русский текст, но генерирует заметно хуже, чем на английском. Для русскоязычных задач существуют community-дообучения (Saiga, Vikhr), но базовая модель уступает DeepSeek и Alibaba.

Лицензия Meta — не MIT и не Apache. Бесплатно для компаний с менее 700 миллионов активных пользователей в месяц. Для большинства бизнесов это не ограничение, но формально лицензия не «свободная».

Для каких задач


Alibaba: тихий лидер из Ханчжоу

Alibaba Cloud запустила своё семейство моделей без фанфар и пресс-конференций. Просто выложила на HuggingFace — и модели заговорили сами за себя. К апрелю 2025 года линейка насчитывает 8 размеров: от крохотной 0,6B до флагмана с 235 миллиардами параметров. И все — под лицензией Apache 2.0.

Почему это важно

У Alibaba самая широкая линейка среди всех разработчиков. Какое бы железо у вас ни было — от смартфона до серверной стойки — найдётся подходящий размер. Это делает семейство универсальным выбором для любого бюджета.

8 размеровот 0,6B до 235B
92,7%Coder 32B на HumanEval
119поддерживаемых языков

Гибридное мышление — уникальная функция

Третье поколение моделей — первое семейство с гибридным режимом мышления. Модель сама решает, когда нужно «подумать» (разбить задачу на шаги, как DeepSeek R1), а когда ответить сразу. На сложных задачах включается reasoning, на простых — мгновенный ответ. Не нужно выбирать между «быстрой» и «умной» моделью.

Код-модель — лучшая среди открытых

Отдельная линейка для кода (версия 2.5) на 32B параметров показывает 92,7% на HumanEval — это выше, чем у любой другой открытой модели. Поддерживает 92 языка программирования и Fill-in-the-Middle (автодополнение прямо в IDE).

Русский язык: хорошо

119 поддерживаемых языков, включая русский. Качество генерации на русском — одно из лучших среди международных моделей. Неудивительно: российские разработчики (T-Pro, T-Lite) выбрали именно эту базу для своих русскоязычных дообучений.

Для каких задач


Google Gemma 3: ИИ-модель, которая видит

Google выпускает открытые модели не из альтруизма — это способ привязать разработчиков к экосистеме Google Cloud, TensorFlow и Android. Но результат впечатляет: Gemma 3 27B обходит по предпочтениям людей модели в 15 раз крупнее.

Главная особенность — нативная мультимодальность

В отличие от конкурентов, где модуль обработки изображений «прикручен» к текстовой модели отдельно, в Gemma 3 vision-кодировщик — часть архитектуры. Модель проектировалась как мультимодальная с самого начала. Размеры 4B, 12B и 27B принимают и текст, и изображения. Только 1B — чисто текстовая.

QAT — квантизация без потерь

Google тренировала квантизованные версии прямо во время обучения (Quantization-Aware Training). Это значит, что 27B-модель в int4 (14 ГБ вместо 54 ГБ) теряет значительно меньше качества, чем при обычной пост-квантизации. Она помещается на одну RTX 3090.

128K токеновконтекстное окно у всех размеров Gemma 3

Слабое место — русский

140+ языков заявлено, но пользователи отмечают деградацию качества на русском по сравнению с английским, особенно в малых размерах. Для русскоязычных задач Gemma 3 уступает моделям Alibaba и DeepSeek.

Для каких задач


Microsoft Phi-4: доказательство, что размер не главное

Философия Phi — «качество данных важнее количества параметров». Microsoft тренировала модель на специально подготовленных синтетических данных «учебникового качества» и получила результат, который перевернул представления о масштабировании.

14B бьёт 70B

На MMLU Phi-4 набирает 84,8 — больше, чем модель Meta 3.3 70B (86, но при 5-кратном размере). На MATH — 80,4, что выше GPT-4o (74,6). При этом модель занимает ~9 ГБ в Q4 и работает на любой современной видеокарте.

14Bпараметров Phi-4
vs
70Bпараметров Meta 3.3 (и Phi побеждает на MATH)

Главное ограничение — контекст 16K

У Phi-4 (14B) контекстное окно — всего 16 384 токена. Это ~12 страниц текста. Для чтения длинных документов, работы с большими кодовыми базами или RAG с множеством чанков — критически мало. Для сравнения: DeepSeek и Alibaba поддерживают 128K.

Мини-версия (3,8B) имеет 128K контекст, но уступает по качеству.

Лицензия: MIT

Полная свобода, включая коммерческое использование. Без ограничений.

Для каких задач


Mistral: европейский ответ Кремниевой долине

Mistral AI — французский стартап, основанный в 2023 году бывшими исследователями Google DeepMind и Meta. Компания привлекла более 600 миллионов евро инвестиций и стала главным европейским игроком на рынке открытых моделей.

Почему это важно для бизнеса

Mistral — единственный крупный разработчик из ЕС. Для компаний, которым важен цифровой суверенитет и соответствие GDPR, это аргумент. Модели тренируются с учётом европейских требований к данным.

Small 3.1 — лучший «средний» вариант

Модель на 24B параметров с vision, контекстом 128K и лучшей среди западных моделей поддержкой русского языка. Токенизатор специально оптимизирован для нелатинских языков. В Q4 занимает ~15 ГБ — помещается на RTX 4090 или Mac с 32 ГБ.

Devstral — серьёзный код-агент

Отдельная модель для разработки. Devstral Small 2 (24B) набирает 68% на SWE-Bench Verified — бенчмарке, который тестирует реальные задачи из GitHub-репозиториев (не синтетический код). Контекстное окно — 256K токенов. Интегрируется с VS Code через расширение Cline.

Лицензия: Apache 2.0

Полностью свободная, без ограничений.

Для каких задач


Российские модели: что можно запустить локально

Ландшафт российских открытых моделей за последний год изменился кардинально. Если в 2023 году существовал только ruGPT-3.5 от Сбера, то к 2026 году доступно 9+ семейств от четырёх крупных компаний и активного сообщества.

Сбер: GigaChat 3.1 — три размера под MIT

Сбер выпустил сразу три открытых модели под лицензией MIT:

Lightning (10B, 1,8B активных) — самая эффективная модель для слабого железа. Архитектура MoE: при 10B общих параметров активируются только 1,8B. Занимает ~6 ГБ в Q4. Работает на ноутбуке. Конкурирует с GPT-4o mini по оценкам пользователей.

Lite (20B, 3B активных) — средний вариант. Скорость 3B-модели, качество 8B. Контекст 131K.

Ultra (702B, 36B активных) — флагман. Лидер бенчмарка MERA (основной русскоязычный бенчмарк). Контекст 256K. Требует мультигипиного кластера.

MITлицензия всех трёх моделей
~6 ГБLightning на ноутбуке (Q4)
MERA #1Ultra — лидер русского бенчмарка

Т-Банк: T-Pro 2.1 — лучший русский на 32B

Т-Банк (бывший Тинькофф) пошёл другим путём: взял за основу модель Alibaba (32B) и провёл глубокое дообучение на русском языке. Результат: T-Pro 2.1 — лучшая открытая модель до 35B параметров на русскоязычных бенчмарках.

Ключевая инновация — адаптированный токенизатор. Русский текст кодируется плотнее, чем в оригинальной модели, что даёт двукратное ускорение генерации на русском. Лицензия Apache 2.0.

T-Lite 1.0 (7B) — младший брат T-Pro. Лучшая открытая русская модель в своём весовом классе. 100+ миллиардов токенов русского текста при дообучении.

Яндекс: только Lite

YandexGPT 5 Lite (8B) — единственная открытая модель Яндекса. Полные версии (Pro, 5.1) доступны только через API Yandex Cloud. Лицензия — коммерческое использование до 10 миллионов токенов в месяц. Выше — по договору.

Комьюнити: Saiga и Vikhr

Saiga (Илья Гусев) — серия дообучений международных моделей для русского. Варианты на базе 8B, 12B и других моделей. Самый популярный community-проект: быстрый способ получить хороший русский из любой базовой модели.

Vikhr — более глубокий подход. В отличие от Saiga, Vikhr делает полное дообучение (не LoRA), с адаптацией токенизатора. Версия на 12B на базе Mistral Nemo — двуязычная (русский/английский). Команда Vikhr также ведёт Russian LLM Leaderboard на HuggingFace.

МТС: Cotype и Kodify

Cotype Nano (2B) — ультралёгкая модель для edge-устройств. Оптимизирована для Intel CPU. Работает на смартфоне.

Kodify Nano (1,5B) — модель для кода. 90 языков программирования. Поставляется с плагинами для IDE.

Рекомендация для русского языка: T-Pro 2.1 (32B) на мощном железе, GigaChat Lightning (10B) на слабом, T-Lite 1.0 (7B) — золотая середина. Все три — Apache 2.0 или MIT.


Модели для кода: когда нужен отдельный инструмент

Универсальная модель пишет код, но специализированная пишет его лучше. Главное отличие — в данных для обучения и в архитектурных решениях.

Лидеры

Coder 32B (Alibaba) — 92,7% на HumanEval, 92 языка программирования. Поддерживает FIM (Fill-in-the-Middle) — умеет дописывать код в середину файла, а не только в конец. Это критично для IDE-интеграции через Continue.dev, Tabby или Cody.

Devstral Small 2 (Mistral, 24B) — лидер SWE-Bench (68%). Этот бенчмарк тестирует не синтетические задачи, а реальные issue из GitHub-репозиториев. Модель умеет читать несколько файлов, понимать контекст проекта и вносить изменения. Контекст 256K.

DeepSeek Coder V2 Lite (16B) — MoE-архитектура (2,4B активных). Помещается на 8 ГБ видеокарте. 300+ языков. MIT-лицензия.

StarCoder 2 (15B) — уникален этичным подходом: обучен на 600+ языках из открытых репозиториев с чистыми лицензиями. Менее производителен, но лицензионно безупречен.

Когда код-модель лучше универсальной


Мультимодальные: когда нейросеть должна видеть

Мультимодальная модель принимает на вход не только текст, но и изображения. На практике это означает:

Три лидера

Gemma 3 27B — vision встроен в архитектуру. Лучшая интеграция текста и изображений. 86,6% на DocVQA (понимание документов). 14 ГБ в Q4.

Vision 11B (Meta) — первая открытая мультимодальная модель от Meta. Лёгкая (8 ГБ). Сильна на графиках (85,5% ChartQA) и диаграммах (92,3% AI2 Diagram). Но русский не поддерживается официально.

Pixtral 12B (Mistral) — лучший OCR среди моделей до 12B. 97% точности распознавания текста. Apache 2.0. Европейское происхождение.

Когда мультимодальность нужна

Когда не нужна

Если все ваши задачи — текстовые (чат, код, анализ текста), мультимодальная модель добавляет сложности без пользы. Лучше взять текстовую модель того же размера — она будет работать быстрее.


Сводная таблица: все модели на одной странице

МодельРазмерыVRAM (Q4)РусскийКодЛицензияДля чего
DeepSeek V3671B MoE~386 ГБ+++MITУниверсал (кластер)
DeepSeek R1 distill1,5–70B2–40 ГБ++MITРассуждения, математика
Meta 3.370B~40 ГБ~+Meta LicenseЭкосистема, EN-задачи
Meta 3.2 Vision11B~8 ГБ-~Meta LicenseДокументы с картинками
Alibaba (3 поколение)0,6–235B0,5–143 ГБ+++Apache 2.0Универсал, любой бюджет
Alibaba Coder 2.51,5–32B1–20 ГБ++++Apache 2.0Код, IDE-интеграция
Gemma 31–27B0,7–14 ГБ~+Apache 2.0Vision-задачи
Phi-43,8–14B2,5–9 ГБ~+MITМатематика, STEM
Mistral Small 3.124B~15 ГБ++Apache 2.0Мультимодальный ассистент
Devstral24B~15 ГБ~+++Apache 2.0Код-агент (SWE-Bench)
GigaChat Lightning10B MoE~6 ГБ++~MITРусский на слабом железе
T-Pro 2.132B~20 ГБ++++Apache 2.0Лучший русский до 35B
T-Lite 1.07B~5 ГБ++~Apache 2.0Русский, баланс
YandexGPT Lite8B~5 ГБ++~Custom (10M/мес)Русский, факты о России

Обозначения: +++ отлично | ++ хорошо | + нормально | ~ посредственно | - слабо


Какую выбрать: дерево решений

По задаче

Нужен русский язык:

Нужен код:

Нужны рассуждения и математика:

Нужна работа с изображениями:

Нужен универсальный помощник:

По доступной памяти

ПамятьЛучший выборАльтернатива
4–6 ГБGigaChat Lightning Q4T-Lite 1.0 Q4
8 ГБDeepSeek R1 Distill 8BGemma 3 12B Q4
16 ГБMistral Small 3.1 Q4Gemma 3 27B Q4
24 ГБT-Pro 2.1 Q4 или Coder 32B Q4DeepSeek R1 32B
48 ГБMeta 3.3 70B Q4Alibaba 72B Q4
64+ ГБDeepSeek R1 70BAlibaba 72B Q8

Моделей десятки, но правильный выбор — один. Он зависит от вашей задачи, вашего языка и вашего железа. Не от маркетинга.

Не хотите разбираться в моделях самостоятельно? Закажите компьютер с предустановленной нейросетью — мы подберём модель под ваши задачи.


Источники