Локальных нейросетей стало так много, что выбрать — отдельная задача. За последние полтора года количество открытых моделей выросло с нескольких штук до десятков, а каждый разработчик утверждает, что именно его модель «лучшая». В этой статье разбираем каждую популярную модель: кто и зачем её создал, в чём её ДНК, где она сильна и для каких задач подходит.
Если вам нужен ликбез по параметрам, квантизации и требованиям к железу — начните с нашего гида по выбору компьютера для нейросети. Здесь мы предполагаем, что вы понимаете, что такое «70B Q4» и сколько памяти это занимает.
DeepSeek: китайский стартап, который потряс индустрию
История DeepSeek — одна из самых неожиданных в мире ИИ. Компанию основал Лян Вэньфэн, глава хедж-фонда High-Flyer Capital Management, управлявшего активами на 8 миллиардов долларов. В 2023 году он решил, что будущее — за искусственным интеллектом, и направил прибыль фонда на создание собственной ИИ-лаборатории.
Результат превзошёл ожидания всех. DeepSeek V3, выпущенная в декабре 2024 года, показала результаты на уровне лучших закрытых моделей — при этом весь код и веса были опубликованы под лицензией MIT. Стоимость обучения составила менее 6 миллионов долларов — в десятки раз меньше, чем у конкурентов.
Две модели — два подхода
DeepSeek V3 — универсальная модель. 671 миллиард параметров, но благодаря архитектуре MoE (Mixture of Experts) при каждом запросе активируются только 37 миллиардов. Это значит, что модель «знает» как 671B, но «думает» как 37B — быстро и эффективно.
DeepSeek R1 — модель с рассуждениями. Та же архитектура, но обученная через reinforcement learning «думать вслух». R1 разбивает сложную задачу на шаги, проверяет каждый, и только потом выдаёт ответ. На математических задачах AIME она набрала 79,8% — уровень лучших закрытых моделей.
Дистиллированные версии — главная ценность для локального запуска
Полная модель требует ~386 ГБ памяти. Но команда DeepSeek выпустила 6 дистиллированных версий R1 — от 1,5B до 70B параметров. Версия на 32B (занимает ~18 ГБ в Q4) помещается на одну видеокарту RTX 4090 и обходит по математике модель OpenAI o1-mini.
Для каких задач
- V3 — универсальный помощник, код, длинные документы (128K контекст)
- R1 32B — сложные рассуждения, математика, анализ, когда качество важнее скорости
- R1 8B/14B — бюджетный вариант для базовых задач с рассуждениями
Русский язык: хорошо
Тренировочные данные включают русский. Качество заметно выше, чем у моделей Meta.
DeepSeek R1 Distill 32B — лучшее соотношение качества рассуждений к требованиям железа. Одна видеокарта, 18 ГБ памяти, результаты выше o1-mini.
Meta: как Facebook изменил правила игры
В 2023 году произошло событие, которое перевернуло рынок: Meta (бывший Facebook) выложила в открытый доступ свою языковую модель. Это было стратегическое решение Марка Цукерберга: если ИИ станет «общей инфраструктурой» — выигрывает тот, у кого больше всего пользователей и приложений. А это — Meta.
С тех пор каждое поколение улучшалось. Версия 3.3 70B, вышедшая в декабре 2024, показала 95% результатов модели 405B — при этом требуя в 6 раз меньше ресурсов.
Линейка
| Версия | Параметры | Особенность |
|---|---|---|
| 3.2 1B / 3B | 1–3B | Для смартфонов и встраиваемых устройств |
| 3.2 Vision 11B | 11B | Мультимодальность: текст + изображения |
| 3.3 70B | 70B | Основная рабочая модель, заменила 405B |
| 3.1 405B | 405B | Флагман, но 3.3 70B практически не уступает |
ДНК модели
Модели Meta — «рабочие лошадки» индустрии. Они не лидируют ни по рассуждениям (DeepSeek R1 сильнее), ни по коду (Alibaba Coder лучше), но хорошо справляются со всем. Главное преимущество — экосистема: тысячи fine-tune'ов, инструментов и интеграций.
Слабое место — русский язык
Русский не входит в список 8 официально поддерживаемых языков. Модель понимает русский текст, но генерирует заметно хуже, чем на английском. Для русскоязычных задач существуют community-дообучения (Saiga, Vikhr), но базовая модель уступает DeepSeek и Alibaba.
Лицензия Meta — не MIT и не Apache. Бесплатно для компаний с менее 700 миллионов активных пользователей в месяц. Для большинства бизнесов это не ограничение, но формально лицензия не «свободная».
Для каких задач
- 3.3 70B — основная модель для англоязычных задач, когда нужна экосистема
- 3.2 Vision 11B — анализ изображений и документов (8 ГБ в Q4)
- 3.2 1B/3B — ИИ на мобильных устройствах и IoT
Alibaba: тихий лидер из Ханчжоу
Alibaba Cloud запустила своё семейство моделей без фанфар и пресс-конференций. Просто выложила на HuggingFace — и модели заговорили сами за себя. К апрелю 2025 года линейка насчитывает 8 размеров: от крохотной 0,6B до флагмана с 235 миллиардами параметров. И все — под лицензией Apache 2.0.
Почему это важно
У Alibaba самая широкая линейка среди всех разработчиков. Какое бы железо у вас ни было — от смартфона до серверной стойки — найдётся подходящий размер. Это делает семейство универсальным выбором для любого бюджета.
Гибридное мышление — уникальная функция
Третье поколение моделей — первое семейство с гибридным режимом мышления. Модель сама решает, когда нужно «подумать» (разбить задачу на шаги, как DeepSeek R1), а когда ответить сразу. На сложных задачах включается reasoning, на простых — мгновенный ответ. Не нужно выбирать между «быстрой» и «умной» моделью.
Код-модель — лучшая среди открытых
Отдельная линейка для кода (версия 2.5) на 32B параметров показывает 92,7% на HumanEval — это выше, чем у любой другой открытой модели. Поддерживает 92 языка программирования и Fill-in-the-Middle (автодополнение прямо в IDE).
Русский язык: хорошо
119 поддерживаемых языков, включая русский. Качество генерации на русском — одно из лучших среди международных моделей. Неудивительно: российские разработчики (T-Pro, T-Lite) выбрали именно эту базу для своих русскоязычных дообучений.
Для каких задач
- 32B — универсальный помощник для команды (помещается на RTX 4090 в Q4)
- 14B — баланс скорости и качества для одного пользователя
- Coder 32B — разработка, code review, генерация кода
- 0,6B–4B — встраиваемые устройства, edge-вычисления
Google Gemma 3: ИИ-модель, которая видит
Google выпускает открытые модели не из альтруизма — это способ привязать разработчиков к экосистеме Google Cloud, TensorFlow и Android. Но результат впечатляет: Gemma 3 27B обходит по предпочтениям людей модели в 15 раз крупнее.
Главная особенность — нативная мультимодальность
В отличие от конкурентов, где модуль обработки изображений «прикручен» к текстовой модели отдельно, в Gemma 3 vision-кодировщик — часть архитектуры. Модель проектировалась как мультимодальная с самого начала. Размеры 4B, 12B и 27B принимают и текст, и изображения. Только 1B — чисто текстовая.
QAT — квантизация без потерь
Google тренировала квантизованные версии прямо во время обучения (Quantization-Aware Training). Это значит, что 27B-модель в int4 (14 ГБ вместо 54 ГБ) теряет значительно меньше качества, чем при обычной пост-квантизации. Она помещается на одну RTX 3090.
Слабое место — русский
140+ языков заявлено, но пользователи отмечают деградацию качества на русском по сравнению с английским, особенно в малых размерах. Для русскоязычных задач Gemma 3 уступает моделям Alibaba и DeepSeek.
Для каких задач
- 27B — анализ документов с изображениями, графиков, чертежей (14 ГБ в Q4)
- 12B — мультимодальный ассистент для ноутбука (6,6 ГБ в Q4)
- 4B — edge-устройства с vision-задачами
Microsoft Phi-4: доказательство, что размер не главное
Философия Phi — «качество данных важнее количества параметров». Microsoft тренировала модель на специально подготовленных синтетических данных «учебникового качества» и получила результат, который перевернул представления о масштабировании.
14B бьёт 70B
На MMLU Phi-4 набирает 84,8 — больше, чем модель Meta 3.3 70B (86, но при 5-кратном размере). На MATH — 80,4, что выше GPT-4o (74,6). При этом модель занимает ~9 ГБ в Q4 и работает на любой современной видеокарте.
Главное ограничение — контекст 16K
У Phi-4 (14B) контекстное окно — всего 16 384 токена. Это ~12 страниц текста. Для чтения длинных документов, работы с большими кодовыми базами или RAG с множеством чанков — критически мало. Для сравнения: DeepSeek и Alibaba поддерживают 128K.
Мини-версия (3,8B) имеет 128K контекст, но уступает по качеству.
Лицензия: MIT
Полная свобода, включая коммерческое использование. Без ограничений.
Для каких задач
- Математика, логика, STEM-задачи — сильнейшая модель в своём размере
- Быстрый помощник для коротких запросов на бюджетном железе (9 ГБ)
- Не подходит: длинные документы, RAG, многотурновые диалоги с длинной историей
Mistral: европейский ответ Кремниевой долине
Mistral AI — французский стартап, основанный в 2023 году бывшими исследователями Google DeepMind и Meta. Компания привлекла более 600 миллионов евро инвестиций и стала главным европейским игроком на рынке открытых моделей.
Почему это важно для бизнеса
Mistral — единственный крупный разработчик из ЕС. Для компаний, которым важен цифровой суверенитет и соответствие GDPR, это аргумент. Модели тренируются с учётом европейских требований к данным.
Small 3.1 — лучший «средний» вариант
Модель на 24B параметров с vision, контекстом 128K и лучшей среди западных моделей поддержкой русского языка. Токенизатор специально оптимизирован для нелатинских языков. В Q4 занимает ~15 ГБ — помещается на RTX 4090 или Mac с 32 ГБ.
Devstral — серьёзный код-агент
Отдельная модель для разработки. Devstral Small 2 (24B) набирает 68% на SWE-Bench Verified — бенчмарке, который тестирует реальные задачи из GitHub-репозиториев (не синтетический код). Контекстное окно — 256K токенов. Интегрируется с VS Code через расширение Cline.
Лицензия: Apache 2.0
Полностью свободная, без ограничений.
Для каких задач
- Small 3.1 — универсальный мультимодальный ассистент с хорошим русским (15 ГБ)
- Devstral — агент для реальных задач разработки (редактирование файлов, тесты)
- Nemo 12B — лёгкий ассистент с огромным контекстом 128K (7 ГБ)
Российские модели: что можно запустить локально
Ландшафт российских открытых моделей за последний год изменился кардинально. Если в 2023 году существовал только ruGPT-3.5 от Сбера, то к 2026 году доступно 9+ семейств от четырёх крупных компаний и активного сообщества.
Сбер: GigaChat 3.1 — три размера под MIT
Сбер выпустил сразу три открытых модели под лицензией MIT:
Lightning (10B, 1,8B активных) — самая эффективная модель для слабого железа. Архитектура MoE: при 10B общих параметров активируются только 1,8B. Занимает ~6 ГБ в Q4. Работает на ноутбуке. Конкурирует с GPT-4o mini по оценкам пользователей.
Lite (20B, 3B активных) — средний вариант. Скорость 3B-модели, качество 8B. Контекст 131K.
Ultra (702B, 36B активных) — флагман. Лидер бенчмарка MERA (основной русскоязычный бенчмарк). Контекст 256K. Требует мультигипиного кластера.
Т-Банк: T-Pro 2.1 — лучший русский на 32B
Т-Банк (бывший Тинькофф) пошёл другим путём: взял за основу модель Alibaba (32B) и провёл глубокое дообучение на русском языке. Результат: T-Pro 2.1 — лучшая открытая модель до 35B параметров на русскоязычных бенчмарках.
Ключевая инновация — адаптированный токенизатор. Русский текст кодируется плотнее, чем в оригинальной модели, что даёт двукратное ускорение генерации на русском. Лицензия Apache 2.0.
T-Lite 1.0 (7B) — младший брат T-Pro. Лучшая открытая русская модель в своём весовом классе. 100+ миллиардов токенов русского текста при дообучении.
Яндекс: только Lite
YandexGPT 5 Lite (8B) — единственная открытая модель Яндекса. Полные версии (Pro, 5.1) доступны только через API Yandex Cloud. Лицензия — коммерческое использование до 10 миллионов токенов в месяц. Выше — по договору.
Комьюнити: Saiga и Vikhr
Saiga (Илья Гусев) — серия дообучений международных моделей для русского. Варианты на базе 8B, 12B и других моделей. Самый популярный community-проект: быстрый способ получить хороший русский из любой базовой модели.
Vikhr — более глубокий подход. В отличие от Saiga, Vikhr делает полное дообучение (не LoRA), с адаптацией токенизатора. Версия на 12B на базе Mistral Nemo — двуязычная (русский/английский). Команда Vikhr также ведёт Russian LLM Leaderboard на HuggingFace.
МТС: Cotype и Kodify
Cotype Nano (2B) — ультралёгкая модель для edge-устройств. Оптимизирована для Intel CPU. Работает на смартфоне.
Kodify Nano (1,5B) — модель для кода. 90 языков программирования. Поставляется с плагинами для IDE.
Рекомендация для русского языка: T-Pro 2.1 (32B) на мощном железе, GigaChat Lightning (10B) на слабом, T-Lite 1.0 (7B) — золотая середина. Все три — Apache 2.0 или MIT.
Модели для кода: когда нужен отдельный инструмент
Универсальная модель пишет код, но специализированная пишет его лучше. Главное отличие — в данных для обучения и в архитектурных решениях.
Лидеры
Coder 32B (Alibaba) — 92,7% на HumanEval, 92 языка программирования. Поддерживает FIM (Fill-in-the-Middle) — умеет дописывать код в середину файла, а не только в конец. Это критично для IDE-интеграции через Continue.dev, Tabby или Cody.
Devstral Small 2 (Mistral, 24B) — лидер SWE-Bench (68%). Этот бенчмарк тестирует не синтетические задачи, а реальные issue из GitHub-репозиториев. Модель умеет читать несколько файлов, понимать контекст проекта и вносить изменения. Контекст 256K.
DeepSeek Coder V2 Lite (16B) — MoE-архитектура (2,4B активных). Помещается на 8 ГБ видеокарте. 300+ языков. MIT-лицензия.
StarCoder 2 (15B) — уникален этичным подходом: обучен на 600+ языках из открытых репозиториев с чистыми лицензиями. Менее производителен, но лицензионно безупречен.
Когда код-модель лучше универсальной
- Автодополнение в IDE (FIM) — только код-модели
- Большие рефакторинги и многофайловые правки (SWE-Bench задачи) — Devstral
- Максимальная точность генерации (HumanEval 92,7%) — Coder 32B
- Бюджетное железо + код — DeepSeek Coder Lite (8 ГБ)
Мультимодальные: когда нейросеть должна видеть
Мультимодальная модель принимает на вход не только текст, но и изображения. На практике это означает:
- Загрузить скан договора и спросить «какие сроки оплаты?»
- Показать график продаж и попросить анализ
- Сфотографировать доску с заметками и получить текстовую расшифровку
- Отправить скриншот ошибки и получить объяснение
Три лидера
Gemma 3 27B — vision встроен в архитектуру. Лучшая интеграция текста и изображений. 86,6% на DocVQA (понимание документов). 14 ГБ в Q4.
Vision 11B (Meta) — первая открытая мультимодальная модель от Meta. Лёгкая (8 ГБ). Сильна на графиках (85,5% ChartQA) и диаграммах (92,3% AI2 Diagram). Но русский не поддерживается официально.
Pixtral 12B (Mistral) — лучший OCR среди моделей до 12B. 97% точности распознавания текста. Apache 2.0. Европейское происхождение.
Когда мультимодальность нужна
- Работа с документами: сканы, PDF, фотографии бумаг
- Анализ визуальных данных: графики, дашборды, чертежи
- Контент: описание изображений, генерация alt-текстов
Когда не нужна
Если все ваши задачи — текстовые (чат, код, анализ текста), мультимодальная модель добавляет сложности без пользы. Лучше взять текстовую модель того же размера — она будет работать быстрее.
Сводная таблица: все модели на одной странице
| Модель | Размеры | VRAM (Q4) | Русский | Код | Лицензия | Для чего |
|---|---|---|---|---|---|---|
| DeepSeek V3 | 671B MoE | ~386 ГБ | + | ++ | MIT | Универсал (кластер) |
| DeepSeek R1 distill | 1,5–70B | 2–40 ГБ | + | + | MIT | Рассуждения, математика |
| Meta 3.3 | 70B | ~40 ГБ | ~ | + | Meta License | Экосистема, EN-задачи |
| Meta 3.2 Vision | 11B | ~8 ГБ | - | ~ | Meta License | Документы с картинками |
| Alibaba (3 поколение) | 0,6–235B | 0,5–143 ГБ | + | ++ | Apache 2.0 | Универсал, любой бюджет |
| Alibaba Coder 2.5 | 1,5–32B | 1–20 ГБ | + | +++ | Apache 2.0 | Код, IDE-интеграция |
| Gemma 3 | 1–27B | 0,7–14 ГБ | ~ | + | Apache 2.0 | Vision-задачи |
| Phi-4 | 3,8–14B | 2,5–9 ГБ | ~ | + | MIT | Математика, STEM |
| Mistral Small 3.1 | 24B | ~15 ГБ | + | + | Apache 2.0 | Мультимодальный ассистент |
| Devstral | 24B | ~15 ГБ | ~ | +++ | Apache 2.0 | Код-агент (SWE-Bench) |
| GigaChat Lightning | 10B MoE | ~6 ГБ | ++ | ~ | MIT | Русский на слабом железе |
| T-Pro 2.1 | 32B | ~20 ГБ | +++ | + | Apache 2.0 | Лучший русский до 35B |
| T-Lite 1.0 | 7B | ~5 ГБ | ++ | ~ | Apache 2.0 | Русский, баланс |
| YandexGPT Lite | 8B | ~5 ГБ | ++ | ~ | Custom (10M/мес) | Русский, факты о России |
Обозначения: +++ отлично | ++ хорошо | + нормально | ~ посредственно | - слабо
Какую выбрать: дерево решений
По задаче
Нужен русский язык:
- Мощное железо (24+ ГБ) → T-Pro 2.1 (32B)
- Среднее (8–16 ГБ) → T-Lite 1.0 (7B) или GigaChat Lightning (10B)
- Минимальное → GigaChat Lightning Q4 (6 ГБ)
Нужен код:
- Автодополнение в IDE → Coder 32B (FIM, 20 ГБ)
- Редактирование проекта (SWE-Bench) → Devstral 24B (15 ГБ)
- Бюджетный вариант → DeepSeek Coder Lite (8 ГБ)
Нужны рассуждения и математика:
- DeepSeek R1 32B (18 ГБ)
- Бюджетный вариант → Phi-4 14B (9 ГБ)
Нужна работа с изображениями:
- Gemma 3 27B (14 ГБ) — лучшая интеграция vision
- Gemma 3 12B (6,6 ГБ) — бюджетный мультимодальный
- Pixtral 12B (16 ГБ) — лучший OCR
Нужен универсальный помощник:
- Alibaba 32B (19 ГБ) — баланс всего
- Mistral Small 3.1 (15 ГБ) — если важен русский + vision
- DeepSeek V3 — если есть кластер / Mac-ферма
По доступной памяти
| Память | Лучший выбор | Альтернатива |
|---|---|---|
| 4–6 ГБ | GigaChat Lightning Q4 | T-Lite 1.0 Q4 |
| 8 ГБ | DeepSeek R1 Distill 8B | Gemma 3 12B Q4 |
| 16 ГБ | Mistral Small 3.1 Q4 | Gemma 3 27B Q4 |
| 24 ГБ | T-Pro 2.1 Q4 или Coder 32B Q4 | DeepSeek R1 32B |
| 48 ГБ | Meta 3.3 70B Q4 | Alibaba 72B Q4 |
| 64+ ГБ | DeepSeek R1 70B | Alibaba 72B Q8 |
Моделей десятки, но правильный выбор — один. Он зависит от вашей задачи, вашего языка и вашего железа. Не от маркетинга.
Не хотите разбираться в моделях самостоятельно? Закажите компьютер с предустановленной нейросетью — мы подберём модель под ваши задачи.
Источники
- DeepSeek V3 Technical Report (англ.)
- DeepSeek R1 Paper (англ.)
- Meta Llama 3.1 Model Card (англ.)
- Alibaba Qwen3 Technical Report (англ.)
- Google Gemma 3 Technical Report (англ.)
- Microsoft Phi-4 Technical Report (англ.)
- Mistral Small 3.1 (англ.)
- GigaChat 3.1 на HuggingFace
- T-Pro 2.0 на Habr
- MERA — русскоязычный бенчмарк
- Russian LLM Leaderboard (Vikhr)
- Saiga models (IlyaGusev)