Ферма из Mac Mini для нейросетей: как работает, сколько стоит и когда выгоднее NVIDIA

Четыре компактных компьютера размером с ладонь, соединённых кабелем. Суммарная память — 512 ГБ. Потребление — 120 ватт. Этого достаточно, чтобы запустить языковую модель с 671 миллиардом параметров и получать ответы со скоростью 32 токена в секунду.

Это не стенд в лаборатории и не рекламный стенд Apple. Это реальная конфигурация, которую собрала команда Exo Labs из восьми Mac Mini M4 Pro и протестировала на модели DeepSeek V3.

Ферма из Mac Mini — одна из самых обсуждаемых тем в сообществе локального ИИ за последний год. В этой статье разбираем: как устроена технология, какие результаты показывает на практике, и в каких случаях это выгоднее классических серверов с видеокартами NVIDIA.

Зачем объединять несколько Mac Mini в кластер

У каждого Mac Mini на чипе Apple Silicon есть unified memory — единая память, которую процессор и графическое ядро используют совместно. В отличие от обычных компьютеров, здесь нет отдельной видеопамяти (VRAM) — вся оперативная память доступна для нейросети.

Mac Mini M4 Pro поставляется с 24 или 64 ГБ такой памяти. Один компьютер с 64 ГБ запускает модели до 32 миллиардов параметров на комфортной скорости. Но для моделей крупнее — 70B, 235B, 671B — одного устройства не хватает.

Решение: объединить несколько Mac Mini кабелем Thunderbolt и разделить модель между ними.

8 Mac MiniM4 Pro по 64 ГБ = 512 ГБ суммарно

671Bпараметров — DeepSeek V3 запускается целиком

120 Втпотребление кластера из 4 узлов

Каждый узел кластера хранит свою часть модели. При генерации ответа промежуточные результаты передаются между узлами по кабелю. Чем быстрее передача — тем ближе скорость кластера к скорости одного мощного устройства.

Как устроена ферма: Thunderbolt, RDMA и топология

Thunderbolt — это не просто разъём для монитора

Thunderbolt 5, который установлен в Mac Mini M4 Pro и Mac Studio, обеспечивает пропускную способность 80 Гбит/с в двух направлениях. В асимметричном режиме — до 120 Гбит/с в одну сторону.

Для сравнения: домашний гигабитный Ethernet — 1 Гбит/с. Thunderbolt 5 быстрее в 80 раз.

Но главное изменение произошло не в железе, а в софте. В декабре 2025 года Apple добавила в macOS 26.2 поддержку RDMA — Remote Direct Memory Access.

Что такое RDMA и почему это меняет правила

RDMA позволяет одному компьютеру напрямую читать память другого — без участия операционной системы, без сетевого стека TCP/IP, без копирования данных.

~300 мксзадержка по TCP/IP

→

3–14 мксзадержка по RDMA

Снижение задержки в 20–100 раз. Для кластера языковых моделей это критично: при генерации каждого токена узлы обмениваются промежуточными вычислениями. Чем ниже задержка — тем меньше времени тратится на ожидание и тем быстрее приходит ответ.

Важный нюанс: Thunderbolt 4 и Thunderbolt 5 — это два разных мира

Параметр	Thunderbolt 4	Thunderbolt 5
Пропускная способность	40 Гбит/с	80 Гбит/с
RDMA	нет	да (macOS 26.2+)
На каких Mac	M4 (базовый)	M4 Pro и выше

Базовый Mac Mini M4 за 599 долларов оснащён Thunderbolt 4. Он не поддерживает RDMA. Кластер из базовых M4 работает через TCP/IP — и по тестам AppleInsider, один Mac Mini M4 Pro быстрее, чем два базовых M4, соединённых вместе.

RDMA работает только на устройствах с Thunderbolt 5: Mac Mini M4 Pro, Mac Studio M4 Max, Mac Studio M3 Ultra. Базовый Mac Mini M4 для кластера не подходит.

Как соединять: топология кластера

Thunderbolt-кластер поддерживает несколько схем:

Прямое соединение (2 узла). Один кабель между двумя Mac. Полная пропускная способность 80 Гбит/с. Самый простой и эффективный вариант.

Кольцо (3–4 узла). Каждый Mac соединён с двумя соседями. Данные идут по кольцу. Максимум 2 «прыжка» между любыми узлами. Рекомендуется Apple для RDMA-кластеров.

Через хаб. Все подключены к одному Thunderbolt-хабу. Удобно, но хаб создаёт узкое место — пропускная способность делится между устройствами.

Mac Mini M4 Pro имеет 3 порта Thunderbolt 5 — этого достаточно для кольца из 4 узлов (два порта на соседей, один свободен). Mac Studio M4 Max — 6 портов, что даёт больше гибкости.

Бенчмарки: реальная скорость на реальных кластерах

Теория — это хорошо. Но какие цифры получаются на практике?

Тест Jeff Geerling: 4 Mac Studio M3 Ultra, 1,5 ТБ памяти

Инженер Jeff Geerling собрал кластер из четырёх Mac Studio M3 Ultra (два с 512 ГБ и два с 256 ГБ памяти). Общая стоимость — около 40 000 долларов. Суммарная память — 1,5 ТБ.

Результаты на модели с 235 млрд параметров (8-bit квантизация):

Конфигурация	Фреймворк	Скорость
1 узел	exo + RDMA	19,5 tok/s
2 узла	exo + RDMA	26,2 tok/s
4 узла	exo + RDMA	31,9 tok/s
1 узел	C++ фреймворк (без RDMA)	20,4 tok/s
4 узла	C++ фреймворк (без RDMA)	15,2 tok/s

C++ фреймворк инференса на кластере стал медленнее, чем на одном узле. Добавление узлов ухудшило результат. Это не ошибка в тесте — фреймворк не умеет использовать RDMA и работает через TCP/IP, где сетевые задержки съедают весь выигрыш от распараллеливания.

Фреймворк exo с поддержкой RDMA показал обратную картину: каждый новый узел увеличивал скорость. На 4 узлах — ускорение в 1,6 раза по сравнению с одним.

На DeepSeek V3.1 (671 млрд параметров) этот же кластер выдал 32,5 tok/s на четырёх узлах. Модель с триллионом параметров (Kimi K2 Thinking) — 28,3 tok/s.

Тест Exo Labs: 4 Mac Mini M4 за $2 400

Команда Exo Labs собрала бюджетный кластер: 4 Mac Mini M4 (по 599 долларов) плюс MacBook Pro M4 Max. Итого менее 5 000 долларов.

Результаты:

Nemotron 70B: 8 tok/s
Модель-кодер 32B: 18 tok/s

Тест AppleInsider: 5 базовых Mac Mini M4

Самый показательный тест для понимания ограничений:

2 Mac Mini через прямой Thunderbolt: 95 tok/s
2 Mac Mini через хаб: 45 tok/s
5 Mac Mini через хаб: 67–74 tok/s

95 → 67 tok/sдобавление узлов через хаб снизило скорость

Вывод: на базовых M4 (без RDMA) масштабирование не работает. Хаб создаёт узкое место. Для кластера нужен M4 Pro или выше.

Mac vs NVIDIA: честное сравнение по 5 критериям

Это не вопрос «что лучше». Это вопрос «что лучше для конкретной задачи».

1. Стоимость

По данным китайских исследователей, кластер из 4 Mac Studio с суммарной памятью 2 ТБ стоит около 400 000 юаней (~5,5 млн рублей). Эквивалентная конфигурация на 20 картах NVIDIA A100 — более 2 000 000 юаней (~27 млн рублей).

Mac дешевле в 5 раз при сопоставимом объёме памяти для инференса.

~5,5 млн ₽4 Mac Studio (2 ТБ памяти)

~27 млн ₽20 NVIDIA A100 (эквивалент)

Трёхлетняя стоимость владения (по данным OpenClaws): Mac-кластер — ~$16 000, сервер с A100 — ~$43 000, облако AWS — более $80 000.

2. Энергопотребление

Кластер из 5 Mac Mini потребляет около 200 ватт при полной нагрузке. Одна видеокарта NVIDIA RTX 4090 — 450 ватт. Серверная стойка с двумя GPU-картами — 1 200–2 000 ватт.

По данным китайских тестов, энергоэффективность нейронного движка M4 составляет 6,6 TOPS/Вт. Для сравнения: NVIDIA H100 — 0,13 TOPS/Вт, A100 — 0,08 TOPS/Вт.

200 Вт5 Mac Mini при полной нагрузке

450 Вт1 видеокарта RTX 4090

50xразница в TOPS на ватт (M4 vs H100)

3. Максимальный размер модели

NVIDIA RTX 4090 имеет 24 ГБ видеопамяти. Модели крупнее 14B параметров (при квантизации) требуют сложного разбиения или вообще не помещаются. RTX 5090 — 32 ГБ, чуть лучше.

Mac Mini M4 Pro с 64 ГБ unified memory запускает 32B-модели на одном устройстве. Кластер из 4 таких Mac — до 235B. Кластер из 8 — до 671B.

Mac Studio M3 Ultra с 512 ГБ памяти запускает DeepSeek R1 (671B) на одном устройстве — без кластера, без разбиения. Скорость — 17–18 tok/s.

На одном устройстве за 500 000 рублей запускается модель, для которой в мире NVIDIA нужен сервер за 20+ миллионов.

4. Скорость генерации (инференс)

На моделях, которые помещаются в видеопамять, NVIDIA быстрее. RTX 4090 выдаёт ~128 tok/s на 8B-моделях. Mac Mini M4 Pro — 65–70 tok/s на аналогичных моделях.

Но на больших моделях (70B+) ситуация разворачивается. Mac с 64 ГБ unified memory запускает 70B-модель целиком, а RTX 4090 вынуждена «подгружать» данные из оперативной памяти — скорость падает с 50–100 tok/s до 2–5 tok/s.

Причина — в архитектурном параметре, который в китайском ИИ-сообществе называют «коэффициент пропускной способности к вычислениям». У Apple Silicon он составляет 8,02, у NVIDIA — 1,52. При работе с одним пользователем (batch_size=1) Apple эффективнее расходует каждый гигабайт в секунду.

5. Обучение моделей

Здесь NVIDIA побеждает безоговорочно. Тензорные ядра, поддержка FP8/FP16, экосистема CUDA, cuDNN, TensorRT — всё заточено под обучение. Apple Silicon не имеет тензорных ядер и не может конкурировать в этой задаче.

Также NVIDIA заметно быстрее на prefill — обработке входного промпта. Если ваша задача — обработка длинных документов (100K+ токенов контекста), NVIDIA справится с начальной обработкой быстрее.

Критерий	Mac (Apple Silicon)	NVIDIA GPU
Стоимость за ГБ памяти	в 5 раз дешевле	дороже
Энергопотребление	200 Вт (кластер из 5)	450+ Вт (1 GPU)
Модели 70B+	работают на полной скорости	требуют разбиения или swap
Скорость на 8B	65–70 tok/s	128 tok/s
Обучение	не подходит	лучший выбор
Обработка длинного промпта	медленнее	быстрее
Шум и охлаждение	тишина, без СО	серверное охлаждение

Кому это подходит: реальные сценарии

Компании с конфиденциальными данными

Юридические фирмы, клиники, финансовые компании — все, кто обязан хранить данные внутри контура по 152-ФЗ. Mac-ферма работает полностью офлайн. Ни один запрос не уходит в облако.

Компания Bitrix описала на Habr кейс: Mac Mini M4 Pro за 150 000 рублей обрабатывает 2 880 шестистраничных договоров в сутки. Один контракт — за 30 секунд. Электричество — 200 рублей в месяц.

Подкастеры и медиа

Marco Arment, создатель подкаст-приложения Overcast, в марте 2026 года развернул ферму из 48 Mac Mini для автоматической транскрипции подкастов. Причина: облачные API стоили бы тысячи долларов в день. Mac-ферма — фиксированная стоимость после покупки.

Стартапы и малый бизнес

Кластер из 4 Mac Mini M4 Pro — это менее 10 000 долларов за конфигурацию, способную запускать модели на 70–235 млрд параметров. Для сравнения: одна видеокарта NVIDIA H100 стоит 25 000–30 000 долларов.

Кому это не подходит

Компаниям, которым нужно обучать модели с нуля (не дообучать, а именно обучать)
Высоконагруженным сервисам с сотнями одновременных пользователей
Задачам, где критична скорость обработки промпта длиннее 100K токенов

Ограничения и подводные камни

Масштабирование ограничено 4 узлами

Mac Mini M4 Pro имеет 3 порта Thunderbolt 5. В кольцевой топологии это позволяет соединить максимум 4 узла. Mac Studio с 6 портами даёт чуть больше гибкости, но принципиально — Thunderbolt-кластер не масштабируется до десятков узлов.

Узкое место — интерконнект

Пропускная способность Thunderbolt 5 — 10 ГБ/с. Внутренняя шина памяти M4 Max — 546 ГБ/с. Разница — в 55 раз. Это значит, что каждое обращение к памяти соседнего узла в 55 раз дороже, чем к своей. Именно поэтому 4 узла дают ускорение в 1,6 раза, а не в 4.

Для сравнения: NVLink 5 в серверах NVIDIA обеспечивает 1 800 ГБ/с — в 180 раз быстрее Thunderbolt. Но и стоит DGX-сервер от 200 000 долларов.

Thunderbolt 5 в 180 раз медленнее NVLink, но в 300 раз дешевле. Для инференса в малом и среднем бизнесе этого более чем достаточно.

Софт пока молод

Фреймворку exo — менее двух лет. MLX Distributed от Apple появился в 2025 году. RDMA через Thunderbolt включается через Recovery Mode — Apple пока официально считает это экспериментальной функцией. Зрелость софта не сравнима с CUDA-экосистемой, которой более 15 лет.

Базовый M4 не подходит для кластера

Повторю, потому что это критически важно: Mac Mini M4 (без Pro) оснащён Thunderbolt 4. RDMA не поддерживается. Тесты AppleInsider показали, что один M4 Pro быстрее двух базовых M4 в кластере. Экономия на базовых моделях приводит к потере производительности.

Сколько стоит ферма: конфигурации и бюджеты

Бюджетный кластер: 4 Mac Mini M4 Pro (24 ГБ)

Стоимость: ~$8 000 (~640 000 ₽)
Суммарная память: 96 ГБ
Модели: до 70B параметров (Q4-квантизация)
Скорость: Nemotron 70B — ~8 tok/s
Потребление: 60–120 Вт

Рабочий кластер: 4 Mac Mini M4 Pro (64 ГБ)

Стоимость: ~$12 000 (~960 000 ₽)
Суммарная память: 256 ГБ
Модели: до 235B параметров
Скорость: модель 235B — ~25–30 tok/s (при RDMA)
Потребление: 80–120 Вт

Максимальный кластер: 4 Mac Studio M3 Ultra (512 ГБ)

Стоимость: ~$40 000 (~3,2 млн ₽)
Суммарная память: 1,5 ТБ
Модели: до 1 триллиона параметров
Скорость: DeepSeek V3 671B — 32,5 tok/s
Потребление: менее 250 Вт

от 640 000 ₽бюджетный кластер (4 Mac Mini, 96 ГБ)

960 000 ₽рабочий кластер (4 Mac Mini, 256 ГБ)

3,2 млн ₽максимальный (4 Mac Studio, 1,5 ТБ)

Для сравнения: GPU-сервер с 2 видеокартами NVIDIA RTX 4080 Super (48 ГБ суммарно) стоит ~400 000 рублей — но запускает только модели до 32B параметров. Чтобы добраться до 70B, нужно минимум 2 RTX 5090 — а это уже 1,2 млн рублей при 64 ГБ видеопамяти.

Что будет дальше: M5 Ultra и развитие технологии

Apple чётко обозначила направление. На WWDC 2025 компания посвятила три сессии фреймворку MLX и распределённому инференсу. RDMA через Thunderbolt добавлена как системная функция в macOS.

Ожидается во второй половине 2026 года:

M5 Ultra с пропускной способностью памяти ~1 ТБ/с и объёмом до 256 ГБ на одном чипе
M5 Pro с Thunderbolt 5 и четырёхкратным ростом производительности нейронного движка
Перевод RDMA из экспериментального режима в штатную функцию macOS

Каждое новое поколение чипов Apple увеличивает как объём unified memory, так и скорость доступа к ней. Кластер из 4 Mac Mini через 2–3 года будет запускать модели, для которых сегодня нужен кластер из 4 Mac Studio.

Вопрос уже не в том, станут ли Mac-фермы мейнстримом. Вопрос — как скоро.

Итог: когда Mac-ферма — правильный выбор

Mac-ферма из нескольких устройств Apple Silicon — это не замена серверам NVIDIA. Это другой инструмент для другой задачи.

Выбирайте Mac-ферму, если:

Вам нужен инференс (генерация ответов), а не обучение моделей
Данные должны оставаться внутри компании (152-ФЗ, NDA, медицинская тайна)
Важно энергопотребление и отсутствие шума (офис, клиника)
Бюджет ограничен: Mac дешевле NVIDIA в 5 раз при сопоставимой памяти
Модели крупнее 70B параметров — ваш рабочий инструмент

Выбирайте NVIDIA, если:

Вам нужно обучать модели с нуля
Сотни одновременных пользователей
Критична скорость обработки длинных промптов
У вас уже есть CUDA-инфраструктура и команда, которая с ней работает

Хотите запустить нейросеть на своих машинах? Обсудим подходящую конфигурацию.

Зачем объединять несколько Mac Mini в кластер

Как устроена ферма: Thunderbolt, RDMA и топология

Thunderbolt — это не просто разъём для монитора

Что такое RDMA и почему это меняет правила

Важный нюанс: Thunderbolt 4 и Thunderbolt 5 — это два разных мира

Как соединять: топология кластера

Бенчмарки: реальная скорость на реальных кластерах

Тест Jeff Geerling: 4 Mac Studio M3 Ultra, 1,5 ТБ памяти

Тест Exo Labs: 4 Mac Mini M4 за $2 400

Тест AppleInsider: 5 базовых Mac Mini M4

Mac vs NVIDIA: честное сравнение по 5 критериям

1. Стоимость

2. Энергопотребление

3. Максимальный размер модели

4. Скорость генерации (инференс)

5. Обучение моделей

Кому это подходит: реальные сценарии

Компании с конфиденциальными данными

Подкастеры и медиа

Стартапы и малый бизнес

Кому это не подходит

Ограничения и подводные камни

Масштабирование ограничено 4 узлами

Узкое место — интерконнект

Софт пока молод

Базовый M4 не подходит для кластера

Сколько стоит ферма: конфигурации и бюджеты

Бюджетный кластер: 4 Mac Mini M4 Pro (24 ГБ)

Рабочий кластер: 4 Mac Mini M4 Pro (64 ГБ)

Максимальный кластер: 4 Mac Studio M3 Ultra (512 ГБ)

Что будет дальше: M5 Ultra и развитие технологии

Итог: когда Mac-ферма — правильный выбор

Источники