Чудо 3

Ферма из Mac Mini для нейросетей: как работает, сколько стоит и когда выгоднее NVIDIA

10 апреля 2026 г. · 15 мин чтения

Mac MiniКластерСравнениеThunderbolt

Четыре компактных компьютера размером с ладонь, соединённых кабелем. Суммарная память — 512 ГБ. Потребление — 120 ватт. Этого достаточно, чтобы запустить языковую модель с 671 миллиардом параметров и получать ответы со скоростью 32 токена в секунду.

Это не стенд в лаборатории и не рекламный стенд Apple. Это реальная конфигурация, которую собрала команда Exo Labs из восьми Mac Mini M4 Pro и протестировала на модели DeepSeek V3.

Ферма из Mac Mini — одна из самых обсуждаемых тем в сообществе локального ИИ за последний год. В этой статье разбираем: как устроена технология, какие результаты показывает на практике, и в каких случаях это выгоднее классических серверов с видеокартами NVIDIA.


Зачем объединять несколько Mac Mini в кластер

У каждого Mac Mini на чипе Apple Silicon есть unified memory — единая память, которую процессор и графическое ядро используют совместно. В отличие от обычных компьютеров, здесь нет отдельной видеопамяти (VRAM) — вся оперативная память доступна для нейросети.

Mac Mini M4 Pro поставляется с 24 или 64 ГБ такой памяти. Один компьютер с 64 ГБ запускает модели до 32 миллиардов параметров на комфортной скорости. Но для моделей крупнее — 70B, 235B, 671B — одного устройства не хватает.

Решение: объединить несколько Mac Mini кабелем Thunderbolt и разделить модель между ними.

8 Mac MiniM4 Pro по 64 ГБ = 512 ГБ суммарно
671Bпараметров — DeepSeek V3 запускается целиком
120 Втпотребление кластера из 4 узлов

Каждый узел кластера хранит свою часть модели. При генерации ответа промежуточные результаты передаются между узлами по кабелю. Чем быстрее передача — тем ближе скорость кластера к скорости одного мощного устройства.


Как устроена ферма: Thunderbolt, RDMA и топология

Thunderbolt — это не просто разъём для монитора

Thunderbolt 5, который установлен в Mac Mini M4 Pro и Mac Studio, обеспечивает пропускную способность 80 Гбит/с в двух направлениях. В асимметричном режиме — до 120 Гбит/с в одну сторону.

Для сравнения: домашний гигабитный Ethernet — 1 Гбит/с. Thunderbolt 5 быстрее в 80 раз.

Но главное изменение произошло не в железе, а в софте. В декабре 2025 года Apple добавила в macOS 26.2 поддержку RDMA — Remote Direct Memory Access.

Что такое RDMA и почему это меняет правила

RDMA позволяет одному компьютеру напрямую читать память другого — без участия операционной системы, без сетевого стека TCP/IP, без копирования данных.

~300 мксзадержка по TCP/IP
3–14 мксзадержка по RDMA

Снижение задержки в 20–100 раз. Для кластера языковых моделей это критично: при генерации каждого токена узлы обмениваются промежуточными вычислениями. Чем ниже задержка — тем меньше времени тратится на ожидание и тем быстрее приходит ответ.

Важный нюанс: Thunderbolt 4 и Thunderbolt 5 — это два разных мира

ПараметрThunderbolt 4Thunderbolt 5
Пропускная способность40 Гбит/с80 Гбит/с
RDMAнетда (macOS 26.2+)
На каких MacM4 (базовый)M4 Pro и выше

Базовый Mac Mini M4 за 599 долларов оснащён Thunderbolt 4. Он не поддерживает RDMA. Кластер из базовых M4 работает через TCP/IP — и по тестам AppleInsider, один Mac Mini M4 Pro быстрее, чем два базовых M4, соединённых вместе.

RDMA работает только на устройствах с Thunderbolt 5: Mac Mini M4 Pro, Mac Studio M4 Max, Mac Studio M3 Ultra. Базовый Mac Mini M4 для кластера не подходит.

Как соединять: топология кластера

Thunderbolt-кластер поддерживает несколько схем:

Прямое соединение (2 узла). Один кабель между двумя Mac. Полная пропускная способность 80 Гбит/с. Самый простой и эффективный вариант.

Кольцо (3–4 узла). Каждый Mac соединён с двумя соседями. Данные идут по кольцу. Максимум 2 «прыжка» между любыми узлами. Рекомендуется Apple для RDMA-кластеров.

Через хаб. Все подключены к одному Thunderbolt-хабу. Удобно, но хаб создаёт узкое место — пропускная способность делится между устройствами.

Mac Mini M4 Pro имеет 3 порта Thunderbolt 5 — этого достаточно для кольца из 4 узлов (два порта на соседей, один свободен). Mac Studio M4 Max — 6 портов, что даёт больше гибкости.


Бенчмарки: реальная скорость на реальных кластерах

Теория — это хорошо. Но какие цифры получаются на практике?

Тест Jeff Geerling: 4 Mac Studio M3 Ultra, 1,5 ТБ памяти

Инженер Jeff Geerling собрал кластер из четырёх Mac Studio M3 Ultra (два с 512 ГБ и два с 256 ГБ памяти). Общая стоимость — около 40 000 долларов. Суммарная память — 1,5 ТБ.

Результаты на модели с 235 млрд параметров (8-bit квантизация):

КонфигурацияФреймворкСкорость
1 узелexo + RDMA19,5 tok/s
2 узлаexo + RDMA26,2 tok/s
4 узлаexo + RDMA31,9 tok/s
1 узелC++ фреймворк (без RDMA)20,4 tok/s
4 узлаC++ фреймворк (без RDMA)15,2 tok/s

C++ фреймворк инференса на кластере стал медленнее, чем на одном узле. Добавление узлов ухудшило результат. Это не ошибка в тесте — фреймворк не умеет использовать RDMA и работает через TCP/IP, где сетевые задержки съедают весь выигрыш от распараллеливания.

Фреймворк exo с поддержкой RDMA показал обратную картину: каждый новый узел увеличивал скорость. На 4 узлах — ускорение в 1,6 раза по сравнению с одним.

На DeepSeek V3.1 (671 млрд параметров) этот же кластер выдал 32,5 tok/s на четырёх узлах. Модель с триллионом параметров (Kimi K2 Thinking) — 28,3 tok/s.

Тест Exo Labs: 4 Mac Mini M4 за $2 400

Команда Exo Labs собрала бюджетный кластер: 4 Mac Mini M4 (по 599 долларов) плюс MacBook Pro M4 Max. Итого менее 5 000 долларов.

Результаты:

Тест AppleInsider: 5 базовых Mac Mini M4

Самый показательный тест для понимания ограничений:

95 → 67 tok/sдобавление узлов через хаб снизило скорость

Вывод: на базовых M4 (без RDMA) масштабирование не работает. Хаб создаёт узкое место. Для кластера нужен M4 Pro или выше.


Mac vs NVIDIA: честное сравнение по 5 критериям

Это не вопрос «что лучше». Это вопрос «что лучше для конкретной задачи».

1. Стоимость

По данным китайских исследователей, кластер из 4 Mac Studio с суммарной памятью 2 ТБ стоит около 400 000 юаней (~5,5 млн рублей). Эквивалентная конфигурация на 20 картах NVIDIA A100 — более 2 000 000 юаней (~27 млн рублей).

Mac дешевле в 5 раз при сопоставимом объёме памяти для инференса.

~5,5 млн ₽4 Mac Studio (2 ТБ памяти)
vs
~27 млн ₽20 NVIDIA A100 (эквивалент)

Трёхлетняя стоимость владения (по данным OpenClaws): Mac-кластер — ~$16 000, сервер с A100 — ~$43 000, облако AWS — более $80 000.

2. Энергопотребление

Кластер из 5 Mac Mini потребляет около 200 ватт при полной нагрузке. Одна видеокарта NVIDIA RTX 4090 — 450 ватт. Серверная стойка с двумя GPU-картами — 1 200–2 000 ватт.

По данным китайских тестов, энергоэффективность нейронного движка M4 составляет 6,6 TOPS/Вт. Для сравнения: NVIDIA H100 — 0,13 TOPS/Вт, A100 — 0,08 TOPS/Вт.

200 Вт5 Mac Mini при полной нагрузке
450 Вт1 видеокарта RTX 4090
50xразница в TOPS на ватт (M4 vs H100)

3. Максимальный размер модели

NVIDIA RTX 4090 имеет 24 ГБ видеопамяти. Модели крупнее 14B параметров (при квантизации) требуют сложного разбиения или вообще не помещаются. RTX 5090 — 32 ГБ, чуть лучше.

Mac Mini M4 Pro с 64 ГБ unified memory запускает 32B-модели на одном устройстве. Кластер из 4 таких Mac — до 235B. Кластер из 8 — до 671B.

Mac Studio M3 Ultra с 512 ГБ памяти запускает DeepSeek R1 (671B) на одном устройстве — без кластера, без разбиения. Скорость — 17–18 tok/s.

На одном устройстве за 500 000 рублей запускается модель, для которой в мире NVIDIA нужен сервер за 20+ миллионов.

4. Скорость генерации (инференс)

На моделях, которые помещаются в видеопамять, NVIDIA быстрее. RTX 4090 выдаёт ~128 tok/s на 8B-моделях. Mac Mini M4 Pro — 65–70 tok/s на аналогичных моделях.

Но на больших моделях (70B+) ситуация разворачивается. Mac с 64 ГБ unified memory запускает 70B-модель целиком, а RTX 4090 вынуждена «подгружать» данные из оперативной памяти — скорость падает с 50–100 tok/s до 2–5 tok/s.

Причина — в архитектурном параметре, который в китайском ИИ-сообществе называют «коэффициент пропускной способности к вычислениям». У Apple Silicon он составляет 8,02, у NVIDIA — 1,52. При работе с одним пользователем (batch_size=1) Apple эффективнее расходует каждый гигабайт в секунду.

5. Обучение моделей

Здесь NVIDIA побеждает безоговорочно. Тензорные ядра, поддержка FP8/FP16, экосистема CUDA, cuDNN, TensorRT — всё заточено под обучение. Apple Silicon не имеет тензорных ядер и не может конкурировать в этой задаче.

Также NVIDIA заметно быстрее на prefill — обработке входного промпта. Если ваша задача — обработка длинных документов (100K+ токенов контекста), NVIDIA справится с начальной обработкой быстрее.

КритерийMac (Apple Silicon)NVIDIA GPU
Стоимость за ГБ памятив 5 раз дешевледороже
Энергопотребление200 Вт (кластер из 5)450+ Вт (1 GPU)
Модели 70B+работают на полной скороститребуют разбиения или swap
Скорость на 8B65–70 tok/s128 tok/s
Обучениене подходитлучший выбор
Обработка длинного промптамедленнеебыстрее
Шум и охлаждениетишина, без СОсерверное охлаждение

Кому это подходит: реальные сценарии

Компании с конфиденциальными данными

Юридические фирмы, клиники, финансовые компании — все, кто обязан хранить данные внутри контура по 152-ФЗ. Mac-ферма работает полностью офлайн. Ни один запрос не уходит в облако.

Компания Bitrix описала на Habr кейс: Mac Mini M4 Pro за 150 000 рублей обрабатывает 2 880 шестистраничных договоров в сутки. Один контракт — за 30 секунд. Электричество — 200 рублей в месяц.

Подкастеры и медиа

Marco Arment, создатель подкаст-приложения Overcast, в марте 2026 года развернул ферму из 48 Mac Mini для автоматической транскрипции подкастов. Причина: облачные API стоили бы тысячи долларов в день. Mac-ферма — фиксированная стоимость после покупки.

Стартапы и малый бизнес

Кластер из 4 Mac Mini M4 Pro — это менее 10 000 долларов за конфигурацию, способную запускать модели на 70–235 млрд параметров. Для сравнения: одна видеокарта NVIDIA H100 стоит 25 000–30 000 долларов.

Кому это не подходит


Ограничения и подводные камни

Масштабирование ограничено 4 узлами

Mac Mini M4 Pro имеет 3 порта Thunderbolt 5. В кольцевой топологии это позволяет соединить максимум 4 узла. Mac Studio с 6 портами даёт чуть больше гибкости, но принципиально — Thunderbolt-кластер не масштабируется до десятков узлов.

Узкое место — интерконнект

Пропускная способность Thunderbolt 5 — 10 ГБ/с. Внутренняя шина памяти M4 Max — 546 ГБ/с. Разница — в 55 раз. Это значит, что каждое обращение к памяти соседнего узла в 55 раз дороже, чем к своей. Именно поэтому 4 узла дают ускорение в 1,6 раза, а не в 4.

Для сравнения: NVLink 5 в серверах NVIDIA обеспечивает 1 800 ГБ/с — в 180 раз быстрее Thunderbolt. Но и стоит DGX-сервер от 200 000 долларов.

Thunderbolt 5 в 180 раз медленнее NVLink, но в 300 раз дешевле. Для инференса в малом и среднем бизнесе этого более чем достаточно.

Софт пока молод

Фреймворку exo — менее двух лет. MLX Distributed от Apple появился в 2025 году. RDMA через Thunderbolt включается через Recovery Mode — Apple пока официально считает это экспериментальной функцией. Зрелость софта не сравнима с CUDA-экосистемой, которой более 15 лет.

Базовый M4 не подходит для кластера

Повторю, потому что это критически важно: Mac Mini M4 (без Pro) оснащён Thunderbolt 4. RDMA не поддерживается. Тесты AppleInsider показали, что один M4 Pro быстрее двух базовых M4 в кластере. Экономия на базовых моделях приводит к потере производительности.


Сколько стоит ферма: конфигурации и бюджеты

Бюджетный кластер: 4 Mac Mini M4 Pro (24 ГБ)

Рабочий кластер: 4 Mac Mini M4 Pro (64 ГБ)

Максимальный кластер: 4 Mac Studio M3 Ultra (512 ГБ)

от 640 000 ₽бюджетный кластер (4 Mac Mini, 96 ГБ)
960 000 ₽рабочий кластер (4 Mac Mini, 256 ГБ)
3,2 млн ₽максимальный (4 Mac Studio, 1,5 ТБ)

Для сравнения: GPU-сервер с 2 видеокартами NVIDIA RTX 4080 Super (48 ГБ суммарно) стоит ~400 000 рублей — но запускает только модели до 32B параметров. Чтобы добраться до 70B, нужно минимум 2 RTX 5090 — а это уже 1,2 млн рублей при 64 ГБ видеопамяти.


Что будет дальше: M5 Ultra и развитие технологии

Apple чётко обозначила направление. На WWDC 2025 компания посвятила три сессии фреймворку MLX и распределённому инференсу. RDMA через Thunderbolt добавлена как системная функция в macOS.

Ожидается во второй половине 2026 года:

Каждое новое поколение чипов Apple увеличивает как объём unified memory, так и скорость доступа к ней. Кластер из 4 Mac Mini через 2–3 года будет запускать модели, для которых сегодня нужен кластер из 4 Mac Studio.

Вопрос уже не в том, станут ли Mac-фермы мейнстримом. Вопрос — как скоро.


Итог: когда Mac-ферма — правильный выбор

Mac-ферма из нескольких устройств Apple Silicon — это не замена серверам NVIDIA. Это другой инструмент для другой задачи.

Выбирайте Mac-ферму, если:

Выбирайте NVIDIA, если:

Хотите запустить нейросеть на своих машинах? Обсудим подходящую конфигурацию.


Источники