Четыре компактных компьютера размером с ладонь, соединённых кабелем. Суммарная память — 512 ГБ. Потребление — 120 ватт. Этого достаточно, чтобы запустить языковую модель с 671 миллиардом параметров и получать ответы со скоростью 32 токена в секунду.
Это не стенд в лаборатории и не рекламный стенд Apple. Это реальная конфигурация, которую собрала команда Exo Labs из восьми Mac Mini M4 Pro и протестировала на модели DeepSeek V3.
Ферма из Mac Mini — одна из самых обсуждаемых тем в сообществе локального ИИ за последний год. В этой статье разбираем: как устроена технология, какие результаты показывает на практике, и в каких случаях это выгоднее классических серверов с видеокартами NVIDIA.
Зачем объединять несколько Mac Mini в кластер
У каждого Mac Mini на чипе Apple Silicon есть unified memory — единая память, которую процессор и графическое ядро используют совместно. В отличие от обычных компьютеров, здесь нет отдельной видеопамяти (VRAM) — вся оперативная память доступна для нейросети.
Mac Mini M4 Pro поставляется с 24 или 64 ГБ такой памяти. Один компьютер с 64 ГБ запускает модели до 32 миллиардов параметров на комфортной скорости. Но для моделей крупнее — 70B, 235B, 671B — одного устройства не хватает.
Решение: объединить несколько Mac Mini кабелем Thunderbolt и разделить модель между ними.
Каждый узел кластера хранит свою часть модели. При генерации ответа промежуточные результаты передаются между узлами по кабелю. Чем быстрее передача — тем ближе скорость кластера к скорости одного мощного устройства.
Как устроена ферма: Thunderbolt, RDMA и топология
Thunderbolt — это не просто разъём для монитора
Thunderbolt 5, который установлен в Mac Mini M4 Pro и Mac Studio, обеспечивает пропускную способность 80 Гбит/с в двух направлениях. В асимметричном режиме — до 120 Гбит/с в одну сторону.
Для сравнения: домашний гигабитный Ethernet — 1 Гбит/с. Thunderbolt 5 быстрее в 80 раз.
Но главное изменение произошло не в железе, а в софте. В декабре 2025 года Apple добавила в macOS 26.2 поддержку RDMA — Remote Direct Memory Access.
Что такое RDMA и почему это меняет правила
RDMA позволяет одному компьютеру напрямую читать память другого — без участия операционной системы, без сетевого стека TCP/IP, без копирования данных.
Снижение задержки в 20–100 раз. Для кластера языковых моделей это критично: при генерации каждого токена узлы обмениваются промежуточными вычислениями. Чем ниже задержка — тем меньше времени тратится на ожидание и тем быстрее приходит ответ.
Важный нюанс: Thunderbolt 4 и Thunderbolt 5 — это два разных мира
| Параметр | Thunderbolt 4 | Thunderbolt 5 |
|---|---|---|
| Пропускная способность | 40 Гбит/с | 80 Гбит/с |
| RDMA | нет | да (macOS 26.2+) |
| На каких Mac | M4 (базовый) | M4 Pro и выше |
Базовый Mac Mini M4 за 599 долларов оснащён Thunderbolt 4. Он не поддерживает RDMA. Кластер из базовых M4 работает через TCP/IP — и по тестам AppleInsider, один Mac Mini M4 Pro быстрее, чем два базовых M4, соединённых вместе.
RDMA работает только на устройствах с Thunderbolt 5: Mac Mini M4 Pro, Mac Studio M4 Max, Mac Studio M3 Ultra. Базовый Mac Mini M4 для кластера не подходит.
Как соединять: топология кластера
Thunderbolt-кластер поддерживает несколько схем:
Прямое соединение (2 узла). Один кабель между двумя Mac. Полная пропускная способность 80 Гбит/с. Самый простой и эффективный вариант.
Кольцо (3–4 узла). Каждый Mac соединён с двумя соседями. Данные идут по кольцу. Максимум 2 «прыжка» между любыми узлами. Рекомендуется Apple для RDMA-кластеров.
Через хаб. Все подключены к одному Thunderbolt-хабу. Удобно, но хаб создаёт узкое место — пропускная способность делится между устройствами.
Mac Mini M4 Pro имеет 3 порта Thunderbolt 5 — этого достаточно для кольца из 4 узлов (два порта на соседей, один свободен). Mac Studio M4 Max — 6 портов, что даёт больше гибкости.
Бенчмарки: реальная скорость на реальных кластерах
Теория — это хорошо. Но какие цифры получаются на практике?
Тест Jeff Geerling: 4 Mac Studio M3 Ultra, 1,5 ТБ памяти
Инженер Jeff Geerling собрал кластер из четырёх Mac Studio M3 Ultra (два с 512 ГБ и два с 256 ГБ памяти). Общая стоимость — около 40 000 долларов. Суммарная память — 1,5 ТБ.
Результаты на модели с 235 млрд параметров (8-bit квантизация):
| Конфигурация | Фреймворк | Скорость |
|---|---|---|
| 1 узел | exo + RDMA | 19,5 tok/s |
| 2 узла | exo + RDMA | 26,2 tok/s |
| 4 узла | exo + RDMA | 31,9 tok/s |
| 1 узел | C++ фреймворк (без RDMA) | 20,4 tok/s |
| 4 узла | C++ фреймворк (без RDMA) | 15,2 tok/s |
C++ фреймворк инференса на кластере стал медленнее, чем на одном узле. Добавление узлов ухудшило результат. Это не ошибка в тесте — фреймворк не умеет использовать RDMA и работает через TCP/IP, где сетевые задержки съедают весь выигрыш от распараллеливания.
Фреймворк exo с поддержкой RDMA показал обратную картину: каждый новый узел увеличивал скорость. На 4 узлах — ускорение в 1,6 раза по сравнению с одним.
На DeepSeek V3.1 (671 млрд параметров) этот же кластер выдал 32,5 tok/s на четырёх узлах. Модель с триллионом параметров (Kimi K2 Thinking) — 28,3 tok/s.
Тест Exo Labs: 4 Mac Mini M4 за $2 400
Команда Exo Labs собрала бюджетный кластер: 4 Mac Mini M4 (по 599 долларов) плюс MacBook Pro M4 Max. Итого менее 5 000 долларов.
Результаты:
- Nemotron 70B: 8 tok/s
- Модель-кодер 32B: 18 tok/s
Тест AppleInsider: 5 базовых Mac Mini M4
Самый показательный тест для понимания ограничений:
- 2 Mac Mini через прямой Thunderbolt: 95 tok/s
- 2 Mac Mini через хаб: 45 tok/s
- 5 Mac Mini через хаб: 67–74 tok/s
Вывод: на базовых M4 (без RDMA) масштабирование не работает. Хаб создаёт узкое место. Для кластера нужен M4 Pro или выше.
Mac vs NVIDIA: честное сравнение по 5 критериям
Это не вопрос «что лучше». Это вопрос «что лучше для конкретной задачи».
1. Стоимость
По данным китайских исследователей, кластер из 4 Mac Studio с суммарной памятью 2 ТБ стоит около 400 000 юаней (~5,5 млн рублей). Эквивалентная конфигурация на 20 картах NVIDIA A100 — более 2 000 000 юаней (~27 млн рублей).
Mac дешевле в 5 раз при сопоставимом объёме памяти для инференса.
Трёхлетняя стоимость владения (по данным OpenClaws): Mac-кластер — ~$16 000, сервер с A100 — ~$43 000, облако AWS — более $80 000.
2. Энергопотребление
Кластер из 5 Mac Mini потребляет около 200 ватт при полной нагрузке. Одна видеокарта NVIDIA RTX 4090 — 450 ватт. Серверная стойка с двумя GPU-картами — 1 200–2 000 ватт.
По данным китайских тестов, энергоэффективность нейронного движка M4 составляет 6,6 TOPS/Вт. Для сравнения: NVIDIA H100 — 0,13 TOPS/Вт, A100 — 0,08 TOPS/Вт.
3. Максимальный размер модели
NVIDIA RTX 4090 имеет 24 ГБ видеопамяти. Модели крупнее 14B параметров (при квантизации) требуют сложного разбиения или вообще не помещаются. RTX 5090 — 32 ГБ, чуть лучше.
Mac Mini M4 Pro с 64 ГБ unified memory запускает 32B-модели на одном устройстве. Кластер из 4 таких Mac — до 235B. Кластер из 8 — до 671B.
Mac Studio M3 Ultra с 512 ГБ памяти запускает DeepSeek R1 (671B) на одном устройстве — без кластера, без разбиения. Скорость — 17–18 tok/s.
На одном устройстве за 500 000 рублей запускается модель, для которой в мире NVIDIA нужен сервер за 20+ миллионов.
4. Скорость генерации (инференс)
На моделях, которые помещаются в видеопамять, NVIDIA быстрее. RTX 4090 выдаёт ~128 tok/s на 8B-моделях. Mac Mini M4 Pro — 65–70 tok/s на аналогичных моделях.
Но на больших моделях (70B+) ситуация разворачивается. Mac с 64 ГБ unified memory запускает 70B-модель целиком, а RTX 4090 вынуждена «подгружать» данные из оперативной памяти — скорость падает с 50–100 tok/s до 2–5 tok/s.
Причина — в архитектурном параметре, который в китайском ИИ-сообществе называют «коэффициент пропускной способности к вычислениям». У Apple Silicon он составляет 8,02, у NVIDIA — 1,52. При работе с одним пользователем (batch_size=1) Apple эффективнее расходует каждый гигабайт в секунду.
5. Обучение моделей
Здесь NVIDIA побеждает безоговорочно. Тензорные ядра, поддержка FP8/FP16, экосистема CUDA, cuDNN, TensorRT — всё заточено под обучение. Apple Silicon не имеет тензорных ядер и не может конкурировать в этой задаче.
Также NVIDIA заметно быстрее на prefill — обработке входного промпта. Если ваша задача — обработка длинных документов (100K+ токенов контекста), NVIDIA справится с начальной обработкой быстрее.
| Критерий | Mac (Apple Silicon) | NVIDIA GPU |
|---|---|---|
| Стоимость за ГБ памяти | в 5 раз дешевле | дороже |
| Энергопотребление | 200 Вт (кластер из 5) | 450+ Вт (1 GPU) |
| Модели 70B+ | работают на полной скорости | требуют разбиения или swap |
| Скорость на 8B | 65–70 tok/s | 128 tok/s |
| Обучение | не подходит | лучший выбор |
| Обработка длинного промпта | медленнее | быстрее |
| Шум и охлаждение | тишина, без СО | серверное охлаждение |
Кому это подходит: реальные сценарии
Компании с конфиденциальными данными
Юридические фирмы, клиники, финансовые компании — все, кто обязан хранить данные внутри контура по 152-ФЗ. Mac-ферма работает полностью офлайн. Ни один запрос не уходит в облако.
Компания Bitrix описала на Habr кейс: Mac Mini M4 Pro за 150 000 рублей обрабатывает 2 880 шестистраничных договоров в сутки. Один контракт — за 30 секунд. Электричество — 200 рублей в месяц.
Подкастеры и медиа
Marco Arment, создатель подкаст-приложения Overcast, в марте 2026 года развернул ферму из 48 Mac Mini для автоматической транскрипции подкастов. Причина: облачные API стоили бы тысячи долларов в день. Mac-ферма — фиксированная стоимость после покупки.
Стартапы и малый бизнес
Кластер из 4 Mac Mini M4 Pro — это менее 10 000 долларов за конфигурацию, способную запускать модели на 70–235 млрд параметров. Для сравнения: одна видеокарта NVIDIA H100 стоит 25 000–30 000 долларов.
Кому это не подходит
- Компаниям, которым нужно обучать модели с нуля (не дообучать, а именно обучать)
- Высоконагруженным сервисам с сотнями одновременных пользователей
- Задачам, где критична скорость обработки промпта длиннее 100K токенов
Ограничения и подводные камни
Масштабирование ограничено 4 узлами
Mac Mini M4 Pro имеет 3 порта Thunderbolt 5. В кольцевой топологии это позволяет соединить максимум 4 узла. Mac Studio с 6 портами даёт чуть больше гибкости, но принципиально — Thunderbolt-кластер не масштабируется до десятков узлов.
Узкое место — интерконнект
Пропускная способность Thunderbolt 5 — 10 ГБ/с. Внутренняя шина памяти M4 Max — 546 ГБ/с. Разница — в 55 раз. Это значит, что каждое обращение к памяти соседнего узла в 55 раз дороже, чем к своей. Именно поэтому 4 узла дают ускорение в 1,6 раза, а не в 4.
Для сравнения: NVLink 5 в серверах NVIDIA обеспечивает 1 800 ГБ/с — в 180 раз быстрее Thunderbolt. Но и стоит DGX-сервер от 200 000 долларов.
Thunderbolt 5 в 180 раз медленнее NVLink, но в 300 раз дешевле. Для инференса в малом и среднем бизнесе этого более чем достаточно.
Софт пока молод
Фреймворку exo — менее двух лет. MLX Distributed от Apple появился в 2025 году. RDMA через Thunderbolt включается через Recovery Mode — Apple пока официально считает это экспериментальной функцией. Зрелость софта не сравнима с CUDA-экосистемой, которой более 15 лет.
Базовый M4 не подходит для кластера
Повторю, потому что это критически важно: Mac Mini M4 (без Pro) оснащён Thunderbolt 4. RDMA не поддерживается. Тесты AppleInsider показали, что один M4 Pro быстрее двух базовых M4 в кластере. Экономия на базовых моделях приводит к потере производительности.
Сколько стоит ферма: конфигурации и бюджеты
Бюджетный кластер: 4 Mac Mini M4 Pro (24 ГБ)
- Стоимость: ~$8 000 (~640 000 ₽)
- Суммарная память: 96 ГБ
- Модели: до 70B параметров (Q4-квантизация)
- Скорость: Nemotron 70B — ~8 tok/s
- Потребление: 60–120 Вт
Рабочий кластер: 4 Mac Mini M4 Pro (64 ГБ)
- Стоимость: ~$12 000 (~960 000 ₽)
- Суммарная память: 256 ГБ
- Модели: до 235B параметров
- Скорость: модель 235B — ~25–30 tok/s (при RDMA)
- Потребление: 80–120 Вт
Максимальный кластер: 4 Mac Studio M3 Ultra (512 ГБ)
- Стоимость: ~$40 000 (~3,2 млн ₽)
- Суммарная память: 1,5 ТБ
- Модели: до 1 триллиона параметров
- Скорость: DeepSeek V3 671B — 32,5 tok/s
- Потребление: менее 250 Вт
Для сравнения: GPU-сервер с 2 видеокартами NVIDIA RTX 4080 Super (48 ГБ суммарно) стоит ~400 000 рублей — но запускает только модели до 32B параметров. Чтобы добраться до 70B, нужно минимум 2 RTX 5090 — а это уже 1,2 млн рублей при 64 ГБ видеопамяти.
Что будет дальше: M5 Ultra и развитие технологии
Apple чётко обозначила направление. На WWDC 2025 компания посвятила три сессии фреймворку MLX и распределённому инференсу. RDMA через Thunderbolt добавлена как системная функция в macOS.
Ожидается во второй половине 2026 года:
- M5 Ultra с пропускной способностью памяти ~1 ТБ/с и объёмом до 256 ГБ на одном чипе
- M5 Pro с Thunderbolt 5 и четырёхкратным ростом производительности нейронного движка
- Перевод RDMA из экспериментального режима в штатную функцию macOS
Каждое новое поколение чипов Apple увеличивает как объём unified memory, так и скорость доступа к ней. Кластер из 4 Mac Mini через 2–3 года будет запускать модели, для которых сегодня нужен кластер из 4 Mac Studio.
Вопрос уже не в том, станут ли Mac-фермы мейнстримом. Вопрос — как скоро.
Итог: когда Mac-ферма — правильный выбор
Mac-ферма из нескольких устройств Apple Silicon — это не замена серверам NVIDIA. Это другой инструмент для другой задачи.
Выбирайте Mac-ферму, если:
- Вам нужен инференс (генерация ответов), а не обучение моделей
- Данные должны оставаться внутри компании (152-ФЗ, NDA, медицинская тайна)
- Важно энергопотребление и отсутствие шума (офис, клиника)
- Бюджет ограничен: Mac дешевле NVIDIA в 5 раз при сопоставимой памяти
- Модели крупнее 70B параметров — ваш рабочий инструмент
Выбирайте NVIDIA, если:
- Вам нужно обучать модели с нуля
- Сотни одновременных пользователей
- Критична скорость обработки длинных промптов
- У вас уже есть CUDA-инфраструктура и команда, которая с ней работает
Хотите запустить нейросеть на своих машинах? Обсудим подходящую конфигурацию.
Источники
- Jeff Geerling — кластер из 4 Mac Studio M3 Ultra с RDMA
- Exo Labs — DeepSeek V3 671B на кластере Mac Mini
- AppleInsider — тест кластера из 5 Mac Mini M4
- Apple TN3205 — RDMA через Thunderbolt (документация)
- Zhihu — анализ 5 Mac Mini M4, 200 Вт потребления (кит.)
- 53AI — стоимость Mac-кластера vs 20 NVIDIA A100 (кит.)
- OpenClaws — 3-летняя стоимость владения Mac vs облако
- Habr/Bitrix — Mac Mini M4 Pro для обработки документов
- AppleInsider — 48 Mac Mini для транскрипции Overcast
- Stabilise.io — революция RDMA от Apple
- Forgenex — сравнение NVIDIA vs AMD vs Apple Silicon (исп.)
- CSDN — DeepSeek V3 671B на 8 Mac Mini M4 Pro (кит.)