VPSРейтинг
AI8 марта 2026 · 17 мин чтения

LLM на Mac Mini M4: сравнение с RTX 3060 и RTX 3090

Mac Mini M4, ПК с RTX 3060 12 ГБ или ПК с RTX 3090 24 ГБ — что выбрать для локального запуска языковых моделей? Объясняем роль пропускной способности памяти, приводим замеры на 7B–32B моделях и считаем полную стоимость владения с учётом электричества.

1. Зачем вообще запускать LLM локально

Большинство людей используют ChatGPT или Claude через браузер — и это удобно. Но у облачных сервисов есть три существенных ограничения:

Цена

GPT-4o — от $20/мес за подписку. API — от $2.50 за миллион токенов. При активном использовании выходит $50–150/мес.

Приватность

Все запросы уходят на сервера OpenAI/Anthropic. Рабочие документы, код, личные данные — всё логируется.

Ограничения

Лимиты сообщений, цензура, нельзя дообучить под задачу. Нет работы оффлайн, зависимость от интернета.

Локальный запуск решает все три проблемы. Вопрос только в том, какое железо купить, чтобы это было удобно и быстро, а не только теоретически возможно.

Сколько tok/s нужно для комфортной работы?

Человек читает со скоростью ~4–5 слов в секунду ≈ ~6 токен/сек. Уже 15–20 tok/s ощущается как «моментальный ответ» — текст появляется быстрее, чем вы успеваете читать. 30+ tok/s — отлично для интерактивного чата. Медленнее 5 tok/s — ощутимо тормозит.

2. Главная метрика: пропускная способность памяти

Чтобы сравнивать железо для LLM, нужно понять одну вещь: скорость генерации токенов определяется не количеством ядер и не тактовой частотой, а тем, как быстро GPU читает веса модели из памяти. Это называется memory bandwidth (пропускная способность памяти).

Как устроен обычный ПК

В обычном ПК у процессора и видеокарты раздельная память. CPU работает с оперативкой (DDR5), а GPU — со своей видеопамятью VRAM. Если модель не помещается в VRAM, остаток переносится в RAM и при каждом шаге генерации данные гоняются через шину PCIe (~32 ГБ/с). Разница с VRAM в 10–30 раз — скорость падает катастрофически.

Устройство«GPU» памятиBandwidthТип памяти
RTX 306012 ГБ360 ГБ/сGDDR6 (отдельная)
RTX 309024 ГБ936 ГБ/сGDDR6X (отдельная)
Mac Mini M4 base16 / 24 ГБ120 ГБ/сУнифицированная LPDDR5X
Mac Mini M4 Pro24 / 48 / 64 ГБ273 ГБ/сУнифицированная LPDDR5X

Ключевые различия по памяти

RTX 3060 — 12 ГБ VRAM

Модели крупнее 10B не помещаются. Offload в RAM через PCIe — скорость падает в 10–15 раз.

RTX 3090 — 24 ГБ VRAM

Запускает 32B модели целиком. Высокая bandwidth 936 ГБ/с → самый быстрый вариант, но 350W TDP.

Mac Mini — единая память

CPU и GPU разделяют одну физическую память. 24 ГБ = 24 ГБ для модели без PCIe-ограничений. Bandwidth ниже, зато 25 Вт.

Вывод: RTX 3090 выигрывает по скорости на всех размерах моделей, которые помещаются в 24 ГБ. Mac Mini M4 base (120 ГБ/с) медленнее в 3–4 раза, но потребляет в 15–18 раз меньше электричества. RTX 3060 ограничен 12 ГБ — на больших моделях проигрывает обоим.

3. Линейка Mac Mini M4: какой выбрать

Apple выпустила Mac Mini M4 в ноябре 2024 года. Доступно несколько конфигураций — объём памяти и чип самый важный параметр для LLM.

МодельПамятьBandwidthЦена (Россия)Макс. LLM
Mac Mini M416 ГБ120 ГБ/с~75 000 ₽до 13B комфортно
Mac Mini M424 ГБ120 ГБ/с~125 000 ₽до 20B
Mac Mini M4 Pro24 ГБ273 ГБ/с~170 000 ₽до 24B быстро
Mac Mini M4 Pro48 ГБ273 ГБ/с~210 000 ₽до 70B
Mac Mini M4 Pro64 ГБ273 ГБ/с~240 000 ₽70B комфортно

Цены в России — параллельный импорт

Apple не работает в России официально с 2022 года. Цены выше — техника завозится через параллельный импорт. Стоимость актуальна для 8 марта 2026 по данным DNS, re:Store и apple-market.ru. Разброс между магазинами может быть 5–15%.

4. 16 ГБ или 24 ГБ: как падает качество моделей

Это самый важный практический вопрос при выборе Mac Mini. Главное: качество определяется размером модели, а не квантизацией. Снижение квантизации с Q8 до Q4_K_M даёт потерю ~2–5% на бенчмарках — на практике почти незаметно. А переход с 7B на 14B — это принципиально другая модель.

Как растёт качество с размером модели

Задача7–8B
Mac 16 ГБ
13–14B
Mac 24 ГБ
20–22B
Mac 24 ГБ
32B
RTX 3090 / Pro 24
Простой чат, перевод⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Суммаризация текста⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Генерация кода⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Сложные инструкции⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Многошаговое рассуждение⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Длинный контекст (16K+)⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Русский язык (Qwen)⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐

Самый ощутимый прыжок: 7B → 14B

Переход с 7B на 14B — это наибольший практический прирост качества за наименьшую доплату по памяти. Модели 14B (Qwen 2.5 14B, Phi-4 14B) пишут код заметно чище, лучше удерживают контекст разговора, точнее следуют многоступенчатым инструкциям. Переход 14B → 22B тоже заметен, но менее драматичен. 22B → 32B — скорее для специализированных задач: сложная математика, длинные reasoning-цепочки.

Когда 16 ГБ достаточно

  • Ежедневный чат, вопросы и ответы, переводы
  • Генерация коротких текстов: письма, посты, описания
  • Код для учёбы или несложных скриптов на Python/JS
  • Эксперименты с LLM — хотите попробовать и понять технологию
  • Работаете с Qwen 7B на русском — он вполне хорош для бытовых задач

Когда 24 ГБ реально оправданы

  • Генерация и ревью кода для реальных проектов — разница с 7B очень заметна
  • Работаете с длинными документами, суммаризация, анализ текстов (нужен большой KV-кэш)
  • LLM используется как рабочий инструмент несколько часов в день
  • RAG-системы и автоматизация — 14B+ точнее следует структурированным инструкциям
  • Русскоязычные задачи: Qwen 2.5 14B значительно лучше Qwen 2.5 7B в сложных текстах
  • Хотите пробовать reasoning-модели: DeepSeek-R1 14B несравнимо лучше 8B для логики

Ориентир по цене вопроса

Разница M4 16 ГБ → M4 24 ГБ: ~50 000 ₽. Если вы используете LLM как инструмент для работы хотя бы 2–3 часа в день — переплата окупается в удобстве и качестве за месяцы. Если это хобби или «потыкать раз в неделю» — возьмите 16 ГБ и лучше сэкономьте.

5. Замеры скорости: Mac Mini vs RTX 3060 vs RTX 3090

Сравниваем генерацию токенов в секунду (tok/s) на одних и тех же моделях. Все замеры — через Ollama: Metal (Mac), CUDA (NVIDIA). Квантизация Q4_K_M, контекст 2048 токенов.

МодельRTX 3060
12 ГБ · 360 ГБ/с
RTX 3090
24 ГБ · 936 ГБ/с
M4 16 ГБ
120 ГБ/с
M4 24 ГБ
120 ГБ/с
M4 Pro 24 ГБ
273 ГБ/с
Llama 3.1 8B Q455–6595–11528–3228–3245–55
Qwen 2.5 7B Q458–65100–12032–3632–3650–60
DeepSeek-R1 8B Q452–6090–10824–2824–2842–50
Llama 3.2 11B Q450–5890–10818–2318–2338–46
Qwen 2.5 14B Q426–32 ⚠️60–7413–1725–31
Mistral 22B Q4⚠️ 4–740–529–1217–23
DeepSeek-R1 32B Q4⚠️ 2–428–36⚠️ 6–911–14
Llama 3.1 70B Q4

⚠️ — тяжёлый offload в RAM или сильно ограниченный KV-кэш. ❌ — модель не помещается. Данные: hardware-corner.net, like2byte.com, замеры сообщества Ollama (2025–2026).

RTX 3090 — быстрейший вариант для 8B–32B

936 ГБ/с bandwidth даёт 95–115 tok/s на 8B и 28–36 tok/s на 32B модели — DeepSeek-R1 32B помещается целиком и работает с комфортной скоростью. Mac Mini M4 Pro уступает по скорости в 1.5–2.5 раза, хотя тоже работает с теми же моделями.

RTX 3060 — стена в 12 ГБ

На 7–13B RTX 3060 быстрый (32–65 tok/s), но модели крупнее 13B начинают offload в RAM через PCIe. На 22B получаете 4–7 tok/s — это хуже, чем Mac Mini M4 base с его 9–12 tok/s. На 32B карточка практически непригодна (2–4 tok/s).

Mac Mini M4 base — меньший bandwidth, те же возможности

120 ГБ/с — в 2.5–7 раз медленнее RTX 3090 по скорости генерации. Но 24 ГБ унифицированной памяти позволяет запускать те же 32B модели, что и 3090. При работе через MLX вместо Ollama прирост +30–50%: 8B модель даёт ~40–48 tok/s.

Бонус: MLX быстрее Ollama на Apple Silicon

Если использовать MLX (фреймворк Apple) вместо Ollama+llama.cpp, скорость на Apple Silicon вырастает на 30–50%. M4 base 16 ГБ на Llama 3.1 8B: вместо 28–32 tok/s получите 40–48 tok/s. M4 Pro 24 ГБ — до 70+ tok/s. Ollama удобнее, MLX — быстрее.

6. Полная стоимость: покупка + электричество

Сравнивать только цену GPU нечестно: RTX 3060 и 3090 нужны в системный блок. Считаем полную стоимость с доставкой, электричеством и сроком использования.

Стоимость полных систем (8 марта 2026)

КомпонентПК + RTX 3060ПК + RTX 3090
Видеокарта~30 000 ₽ (3060 12 ГБ)~55–70 000 ₽ (3090 24 ГБ б/у)
Процессор (Ryzen 5 5600 / i5-12400)~12 000 ₽~12 000 ₽
Материнская плата~12 000 ₽~12 000 ₽
32 ГБ DDR4/DDR5 RAM~8 000 ₽~8 000 ₽
SSD 1 ТБ NVMe~8 000 ₽~8 000 ₽
Блок питания (650W / 850W)~8 000 ₽~12 000 ₽
Корпус~6 000 ₽~6 000 ₽
Итого≈ 84–104 000 ₽≈ 113–128 000 ₽

RTX 3090 — старая карта, хорошая цена б/у

RTX 3090 вышла в 2020 году, новые уже сложно найти. Б/у цена ~55–70 тыс. рублей (Авито, iXBT). При покупке проверяйте состояние термопасты и истории использования в майнинге — такие карточки могут иметь повышенный износ.

Полное сравнение: стоимость и характеристики

ПараметрПК
RTX 3060
ПК
RTX 3090
Mac Mini
M4 16 ГБ
Mac Mini
M4 24 ГБ
Mac Mini
M4 Pro 24 ГБ
Стоимость системы84–104 тыс. ₽113–128 тыс. ₽~75 тыс. ₽~125 тыс. ₽~170 тыс. ₽
Память для LLM12 ГБ VRAM24 ГБ VRAM16 ГБ24 ГБ24 ГБ
Bandwidth360 ГБ/с936 ГБ/с120 ГБ/с120 ГБ/с273 ГБ/с
Скорость 8B Q4~60 tok/s~105 tok/s~30 tok/s~30 tok/s~50 tok/s
Скорость 14B Q4~28 tok/s¹~65 tok/s~15 tok/s~28 tok/s
Скорость 22B Q4⚠️ 4–7 tok/s~45 tok/s~10 tok/s~20 tok/s
Скорость 32B Q4⚠️ 2–4 tok/s~32 tok/s⚠️ ~7 tok/s~12 tok/s
Потребление под нагрузкой~200 Вт~420–450 Вт20–30 Вт20–30 Вт25–35 Вт
Электричество/год²~3 500 ₽~7 500 ₽~440 ₽~440 ₽~530 ₽
ШумЗаметныйГромкийПочти нетПочти нетПочти нет
Апгрейд GPUМожноМожно❌ впаяна❌ впаяна❌ впаяна

¹ 14B (8.5 ГБ) помещается в 12 ГБ VRAM, но остаётся лишь 3.5 ГБ на KV-кэш — контекст резко ограничен.
² Тариф 6 ₽/кВт·ч, работа 8 ч/день под нагрузкой LLM.

RTX 3090: скрытая стоимость — электричество

Система с RTX 3090 под нагрузкой потребляет ~430 Вт. При работе 8 ч/день: 430 Вт × 8 ч × 365 дней = 1 255 кВт·ч/год × 6 ₽ = ~7 530 ₽/год. Mac Mini M4 — ~440 ₽/год. Разница ~7 090 ₽/год. За 3 года переплата на электричестве ~21 300 ₽ — это почти треть цены Mac Mini M4 16 ГБ. Если система работает круглосуточно (сервер), разница утраивается.

7. Установка Ollama на macOS

На macOS установка Ollama значительно проще, чем на Linux. Два способа — выбирайте любой.

Способ 1: GUI-приложение (проще)

Скачайте Ollama.app с официального сайта ollama.com — установите как обычное приложение macOS. После запуска Ollama появится в строке меню (значок ламы). Дальше работайте в терминале:

Terminal — запуск первой модели
# Скачать и запустить Llama 3.1 8B (~4.7 ГБ)
ollama run llama3.1:8b

# Другие популярные модели:
ollama run qwen2.5:7b         # лучший выбор для русского языка
ollama run deepseek-r1:8b     # с «цепочкой рассуждений»
ollama run mistral:7b         # быстрый и универсальный

Способ 2: Homebrew (для разработчиков)

Установка через Homebrew
# Установить Homebrew (если ещё нет)
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

# Установить Ollama
brew install ollama

# Запустить как фоновый сервис (старт при загрузке macOS)
brew services start ollama

# Проверить что работает
ollama list

Веб-интерфейс: Open WebUI

Для красивого интерфейса как у ChatGPT установите Open WebUI через Docker. Сначала установите Docker Desktop for Mac с docker.com, затем:

Запуск Open WebUI (Ollama должен быть запущен)
docker run -d \
  --name open-webui \
  -p 3000:8080 \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  -v open-webui:/app/backend/data \
  --restart always \
  ghcr.io/open-webui/open-webui:main

# Открыть в браузере:
# http://localhost:3000

MLX: +30–50% скорости (опционально)

MLX — библиотека машинного обучения от Apple, оптимизированная под Silicon. Работает быстрее Ollama, но требует Python и не имеет GUI.

Установка MLX и запуск модели
# Установить Python и MLX
brew install python@3.11
pip install mlx-lm

# Запустить модель (скачивается автоматически с Hugging Face)
mlx_lm.generate \
  --model mlx-community/Meta-Llama-3.1-8B-Instruct-4bit \
  --prompt "Объясни квантование нейронных сетей простыми словами"

# Для русского языка — Qwen 2.5 7B
mlx_lm.generate \
  --model mlx-community/Qwen2.5-7B-Instruct-4bit \
  --prompt "Напиши функцию для сортировки на Python"

Ollama или MLX?

Ollama — если хотите готовый сервис с API, Open WebUI, поддержку десятков приложений-клиентов. Установка два клика, работает из коробки.
MLX — если нужна максимальная скорость для скриптов и автоматизации. Требует Python, нет красивого интерфейса.

8. Какие модели запускать на каждой конфигурации

RTX 3060

ПК с RTX 3060 12 ГБ

qwen2.5:7b4.4 ГБ58–65 tok/s

Лучший выбор: быстро, хорошо понимает русский и код

llama3.1:8b4.7 ГБ55–65 tok/s

Универсальная: общение, вопросы, суммаризация

deepseek-r1:8b4.9 ГБ52–60 tok/s

Логика и математика с «цепочкой рассуждений»

llama3.2:11b~6.2 ГБ50–58 tok/s

Vision-модель с текстом тоже; хорошее качество в среднем классе

Держитесь моделей до 10B — они полностью помещаются в VRAM и работают быстро. 13B влезает, но KV-кэш ограничен.

RTX 3090

ПК с RTX 3090 24 ГБ

qwen2.5:14b8.8 ГБ60–74 tok/s

Высокое качество при отличной скорости — лучший выбор

deepseek-r1:32b~20 ГБ28–36 tok/s

Флагманская reasoning-модель; помещается целиком в 24 ГБ VRAM

mistral-small3.1:22b13 ГБ40–52 tok/s

Длинный контекст, хорошие рассуждения

llama3.1:8b4.7 ГБ95–115 tok/s

Если нужна максимальная скорость — быстрее всех альтернатив

24 ГБ VRAM — можно запускать любые модели до 32B с хорошей скоростью. RTX 3090 — самый мощный вариант из рассмотренных.

M4 16 ГБ

Mac Mini M4 16 ГБ

qwen2.5:7b4.4 ГБ32–36 tok/s

Лучший выбор: быстро, хорошо понимает русский и код

llama3.1:8b4.7 ГБ28–32 tok/s

Универсальная: общение, вопросы, суммаризация

deepseek-r1:8b4.9 ГБ24–28 tok/s

Логика и математика с «цепочкой рассуждений»

phi4:14b8.5 ГБ12–16 tok/s

Высокое качество, но медленнее; держите контекст коротким

Держите не больше одной модели в памяти. Через MLX вместо Ollama 8B даёт 40–48 tok/s — сопоставимо с RTX 3060.

M4 24 ГБ

Mac Mini M4 24 ГБ

qwen2.5:14b8.8 ГБ13–17 tok/s

Хороший баланс качества и скорости — лучше, чем 7B

mistral-small3.1:22b13 ГБ9–12 tok/s

Высокое качество рассуждений, длинный контекст

deepseek-r1:14b9 ГБ11–15 tok/s

Лучшая reasoning-модель среднего размера

llama3.1:8b4.7 ГБ28–32 tok/s

Если нужна скорость — оставляйте 8B в ротации

24 ГБ позволяет работать с 14–20B моделями там, где RTX 3060 уже не тянет. RTX 3090 на тех же моделях в 4–5 раз быстрее, но стоит дороже.

Pro 24 ГБ

Mac Mini M4 Pro 24 ГБ

qwen2.5:14b8.8 ГБ25–31 tok/s

Быстро и качественно — лучший повседневный выбор

llama3.1:8b4.7 ГБ45–55 tok/s

Скорость ближе к RTX 3060, тихо и экономично

deepseek-r1:32b~20 ГБ11–14 tok/s

Тяжёлая reasoning-модель, которую 3060 не тянет вовсе

mistral-small3.1:22b13 ГБ17–23 tok/s

Комфортный интерактивный чат с большой моделью

M4 Pro — хороший баланс. На 8B ~50 tok/s и при этом запускает 32B. RTX 3090 быстрее, но потребляет в 15 раз больше электричества.

9. Итог: кому что выбрать

Берите RTX 3060 (в существующий ПК) если…

  • У вас уже есть игровой ПК — просто добавить карту за 30 тыс. ₽, остальное уже есть
  • Работаете только с 7–13B моделями и важна максимальная скорость (~60 tok/s)
  • Нужна CUDA — ComfyUI, некоторые training-фреймворки работают только с CUDA
  • Планируете fine-tuning — там CUDA пока стандарт
  • Не нужны модели крупнее 13B — RTX 3060 на них лучший вариант по цене/скорости

Берите RTX 3090 (в существующий ПК или новую сборку) если…

  • Нужна максимальная скорость на всех размерах — 105 tok/s на 8B, 45 tok/s на 22B
  • Хотите запускать 32B модели (DeepSeek-R1 32B) с комфортной скоростью ~30 tok/s
  • У вас уже есть ПК и можно докупить только б/у 3090 за 55–70 тыс.
  • Важна CUDA-экосистема: fine-tuning, ComfyUI, специализированные инструменты
  • Электричество не критично — 18+ тыс. ₽/год при работе 8 ч/день вас устраивает

Берите Mac Mini M4 16 ГБ если…

  • Нет ПК вообще — Mac Mini M4 16 ГБ дешевле полной сборки с RTX 3060
  • Важен тихий и компактный компьютер, который не шумит ночью
  • Нужно разрабатывать под iOS/macOS или работать с macOS-экосистемой
  • Хватает 7–8B моделей для ваших задач (код, текст, чат)
  • Хотите попробовать локальный AI без больших вложений

Берите Mac Mini M4 24 ГБ если…

  • Хотите запускать 14–20B модели — они заметно умнее 7B, а 3060 их не тянет нормально
  • Бюджет ~125 тыс. ₽ — сопоставимо со сборкой ПК с RTX 3090, но тише и экономичнее
  • Устройство будет работать как сервер круглосуточно — электричество критично
  • Важна macOS-экосистема и компактность

Берите Mac Mini M4 Pro 24–48 ГБ если…

  • Нужен баланс скорости и ёмкости: ~50 tok/s на 8B и возможность запустить 32B
  • Используете LLM профессионально: кодогенерация, RAG-системы, автоматизация
  • Хотите 70B модели — нужен M4 Pro 48 ГБ или выше
  • Важна тихая работа при высокой нагрузке — M4 Pro практически бесшумный
  • Цена за производительность: 170 тыс. против ~120–130 тыс. за сборку с RTX 3090, зато тише и 25 Вт

Частые проблемы

Ollama на Mac «не видит» GPU, работает медленно

Проверьте: ollama ps — в колонке PROCESSOR должно быть 100% GPU. Если CPU — переустановите Ollama или скачайте официальное приложение с ollama.com.

Модель загружается, потом зависает при длинном запросе

KV-кэш переполнился. Уменьшите контекст: ollama run llama3.1:8b --parameter num_ctx 2048

Первый токен появляется через несколько секунд

Ollama выгружает неактивную модель и загружает нужную. Настройте OLLAMA_KEEP_ALIVE=60m, чтобы модель дольше оставалась в памяти.

Частые вопросы

Хотите запускать LLM на VPS вместо локального железа? Нужен сервер с 8+ ГБ RAM

Смотреть рейтинг VPS →

Смотрите также