LLM локально — языковые модели на своём оборудовании

Языковые модели требовательны к памяти: для модели на 7 млрд параметров в формате Q4 нужно около 5 ГБ VRAM, для 70B — около 40 ГБ. Обычные рабочие станции с дискретной видеокартой 8–12 ГБ VRAM не тянут крупные модели. Системная RAM как замена VRAM даёт скорость в 10–20 раз ниже — модель «отвечает» по 1–2 минуты.

В итоге компании выбирают облако, не потому что это лучше, а потому что подобрать и собрать подходящее железо сложно.

Как это работает на локальной AI-станции

Для задач одного-двух пользователей достаточно конфигурации на базе Mac Studio 64 ГБ unified memory (558 000 ₽): запускает Llama 3 70B со скоростью 20–30 токен/с. Для команд до 10 человек подходят станции с двумя RTX 4080/5080 (суммарно 32–64 ГБ VRAM) или DGX Spark (128 ГБ VRAM, 562 500 ₽).

Мы поставляем 12 готовых конфигураций от 149 400 ₽. Каждая станция приходит с предустановленными Ollama, Open WebUI, n8n и Qdrant, протестированными моделями и паспортом изделия. Отдельная покупка компонентов и сборка занимают 2–3 недели; у нас — отгрузка за 3–5 рабочих дней.

Подберём конфигурацию под вашу задачу

Смотреть конфигурации Заказать настройку