1. Зачем вообще запускать LLM локально
Большинство людей используют ChatGPT или Claude через браузер — и это удобно. Но у облачных сервисов есть три существенных ограничения:
Цена
GPT-4o — от $20/мес за подписку. API — от $2.50 за миллион токенов. При активном использовании выходит $50–150/мес.
Приватность
Все запросы уходят на сервера OpenAI/Anthropic. Рабочие документы, код, личные данные — всё логируется.
Ограничения
Лимиты сообщений, цензура, нельзя дообучить под задачу. Нет работы оффлайн, зависимость от интернета.
Локальный запуск решает все три проблемы. Вопрос только в том, какое железо купить, чтобы это было удобно и быстро, а не только теоретически возможно.
Сколько tok/s нужно для комфортной работы?
Человек читает со скоростью ~4–5 слов в секунду ≈ ~6 токен/сек. Уже 15–20 tok/s ощущается как «моментальный ответ» — текст появляется быстрее, чем вы успеваете читать. 30+ tok/s — отлично для интерактивного чата. Медленнее 5 tok/s — ощутимо тормозит.
2. Главная метрика: пропускная способность памяти
Чтобы сравнивать железо для LLM, нужно понять одну вещь: скорость генерации токенов определяется не количеством ядер и не тактовой частотой, а тем, как быстро GPU читает веса модели из памяти. Это называется memory bandwidth (пропускная способность памяти).
Как устроен обычный ПК
В обычном ПК у процессора и видеокарты раздельная память. CPU работает с оперативкой (DDR5), а GPU — со своей видеопамятью VRAM. Если модель не помещается в VRAM, остаток переносится в RAM и при каждом шаге генерации данные гоняются через шину PCIe (~32 ГБ/с). Разница с VRAM в 10–30 раз — скорость падает катастрофически.
| Устройство | «GPU» памяти | Bandwidth | Тип памяти |
|---|---|---|---|
| RTX 3060 | 12 ГБ | 360 ГБ/с | GDDR6 (отдельная) |
| RTX 3090 | 24 ГБ | 936 ГБ/с | GDDR6X (отдельная) |
| Mac Mini M4 base | 16 / 24 ГБ | 120 ГБ/с | Унифицированная LPDDR5X |
| Mac Mini M4 Pro | 24 / 48 / 64 ГБ | 273 ГБ/с | Унифицированная LPDDR5X |
Ключевые различия по памяти
RTX 3060 — 12 ГБ VRAM
Модели крупнее 10B не помещаются. Offload в RAM через PCIe — скорость падает в 10–15 раз.
RTX 3090 — 24 ГБ VRAM
Запускает 32B модели целиком. Высокая bandwidth 936 ГБ/с → самый быстрый вариант, но 350W TDP.
Mac Mini — единая память
CPU и GPU разделяют одну физическую память. 24 ГБ = 24 ГБ для модели без PCIe-ограничений. Bandwidth ниже, зато 25 Вт.
Вывод: RTX 3090 выигрывает по скорости на всех размерах моделей, которые помещаются в 24 ГБ. Mac Mini M4 base (120 ГБ/с) медленнее в 3–4 раза, но потребляет в 15–18 раз меньше электричества. RTX 3060 ограничен 12 ГБ — на больших моделях проигрывает обоим.
3. Линейка Mac Mini M4: какой выбрать
Apple выпустила Mac Mini M4 в ноябре 2024 года. Доступно несколько конфигураций — объём памяти и чип самый важный параметр для LLM.
| Модель | Память | Bandwidth | Цена (Россия) | Макс. LLM |
|---|---|---|---|---|
| Mac Mini M4 | 16 ГБ | 120 ГБ/с | ~75 000 ₽ | до 13B комфортно |
| Mac Mini M4 | 24 ГБ | 120 ГБ/с | ~125 000 ₽ | до 20B |
| Mac Mini M4 Pro | 24 ГБ | 273 ГБ/с | ~170 000 ₽ | до 24B быстро |
| Mac Mini M4 Pro | 48 ГБ | 273 ГБ/с | ~210 000 ₽ | до 70B |
| Mac Mini M4 Pro | 64 ГБ | 273 ГБ/с | ~240 000 ₽ | 70B комфортно |
Цены в России — параллельный импорт
Apple не работает в России официально с 2022 года. Цены выше — техника завозится через параллельный импорт. Стоимость актуальна для 8 марта 2026 по данным DNS, re:Store и apple-market.ru. Разброс между магазинами может быть 5–15%.
4. 16 ГБ или 24 ГБ: как падает качество моделей
Это самый важный практический вопрос при выборе Mac Mini. Главное: качество определяется размером модели, а не квантизацией. Снижение квантизации с Q8 до Q4_K_M даёт потерю ~2–5% на бенчмарках — на практике почти незаметно. А переход с 7B на 14B — это принципиально другая модель.
Как растёт качество с размером модели
| Задача | 7–8B Mac 16 ГБ | 13–14B Mac 24 ГБ | 20–22B Mac 24 ГБ | 32B RTX 3090 / Pro 24 |
|---|---|---|---|---|
| Простой чат, перевод | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Суммаризация текста | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Генерация кода | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Сложные инструкции | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Многошаговое рассуждение | ⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Длинный контекст (16K+) | ⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Русский язык (Qwen) | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
Самый ощутимый прыжок: 7B → 14B
Переход с 7B на 14B — это наибольший практический прирост качества за наименьшую доплату по памяти. Модели 14B (Qwen 2.5 14B, Phi-4 14B) пишут код заметно чище, лучше удерживают контекст разговора, точнее следуют многоступенчатым инструкциям. Переход 14B → 22B тоже заметен, но менее драматичен. 22B → 32B — скорее для специализированных задач: сложная математика, длинные reasoning-цепочки.
Когда 16 ГБ достаточно
- ✓Ежедневный чат, вопросы и ответы, переводы
- ✓Генерация коротких текстов: письма, посты, описания
- ✓Код для учёбы или несложных скриптов на Python/JS
- ✓Эксперименты с LLM — хотите попробовать и понять технологию
- ✓Работаете с Qwen 7B на русском — он вполне хорош для бытовых задач
Когда 24 ГБ реально оправданы
- ✓Генерация и ревью кода для реальных проектов — разница с 7B очень заметна
- ✓Работаете с длинными документами, суммаризация, анализ текстов (нужен большой KV-кэш)
- ✓LLM используется как рабочий инструмент несколько часов в день
- ✓RAG-системы и автоматизация — 14B+ точнее следует структурированным инструкциям
- ✓Русскоязычные задачи: Qwen 2.5 14B значительно лучше Qwen 2.5 7B в сложных текстах
- ✓Хотите пробовать reasoning-модели: DeepSeek-R1 14B несравнимо лучше 8B для логики
Ориентир по цене вопроса
Разница M4 16 ГБ → M4 24 ГБ: ~50 000 ₽. Если вы используете LLM как инструмент для работы хотя бы 2–3 часа в день — переплата окупается в удобстве и качестве за месяцы. Если это хобби или «потыкать раз в неделю» — возьмите 16 ГБ и лучше сэкономьте.
5. Замеры скорости: Mac Mini vs RTX 3060 vs RTX 3090
Сравниваем генерацию токенов в секунду (tok/s) на одних и тех же моделях. Все замеры — через Ollama: Metal (Mac), CUDA (NVIDIA). Квантизация Q4_K_M, контекст 2048 токенов.
| Модель | RTX 3060 12 ГБ · 360 ГБ/с | RTX 3090 24 ГБ · 936 ГБ/с | M4 16 ГБ 120 ГБ/с | M4 24 ГБ 120 ГБ/с | M4 Pro 24 ГБ 273 ГБ/с |
|---|---|---|---|---|---|
| Llama 3.1 8B Q4 | 55–65 | 95–115 | 28–32 | 28–32 | 45–55 |
| Qwen 2.5 7B Q4 | 58–65 | 100–120 | 32–36 | 32–36 | 50–60 |
| DeepSeek-R1 8B Q4 | 52–60 | 90–108 | 24–28 | 24–28 | 42–50 |
| Llama 3.2 11B Q4 | 50–58 | 90–108 | 18–23 | 18–23 | 38–46 |
| Qwen 2.5 14B Q4 | 26–32 ⚠️ | 60–74 | ❌ | 13–17 | 25–31 |
| Mistral 22B Q4 | ⚠️ 4–7 | 40–52 | ❌ | 9–12 | 17–23 |
| DeepSeek-R1 32B Q4 | ⚠️ 2–4 | 28–36 | ❌ | ⚠️ 6–9 | 11–14 |
| Llama 3.1 70B Q4 | ❌ | ❌ | ❌ | ❌ | ❌ |
⚠️ — тяжёлый offload в RAM или сильно ограниченный KV-кэш. ❌ — модель не помещается. Данные: hardware-corner.net, like2byte.com, замеры сообщества Ollama (2025–2026).
RTX 3090 — быстрейший вариант для 8B–32B
936 ГБ/с bandwidth даёт 95–115 tok/s на 8B и 28–36 tok/s на 32B модели — DeepSeek-R1 32B помещается целиком и работает с комфортной скоростью. Mac Mini M4 Pro уступает по скорости в 1.5–2.5 раза, хотя тоже работает с теми же моделями.
RTX 3060 — стена в 12 ГБ
На 7–13B RTX 3060 быстрый (32–65 tok/s), но модели крупнее 13B начинают offload в RAM через PCIe. На 22B получаете 4–7 tok/s — это хуже, чем Mac Mini M4 base с его 9–12 tok/s. На 32B карточка практически непригодна (2–4 tok/s).
Mac Mini M4 base — меньший bandwidth, те же возможности
120 ГБ/с — в 2.5–7 раз медленнее RTX 3090 по скорости генерации. Но 24 ГБ унифицированной памяти позволяет запускать те же 32B модели, что и 3090. При работе через MLX вместо Ollama прирост +30–50%: 8B модель даёт ~40–48 tok/s.
Бонус: MLX быстрее Ollama на Apple Silicon
Если использовать MLX (фреймворк Apple) вместо Ollama+llama.cpp, скорость на Apple Silicon вырастает на 30–50%. M4 base 16 ГБ на Llama 3.1 8B: вместо 28–32 tok/s получите 40–48 tok/s. M4 Pro 24 ГБ — до 70+ tok/s. Ollama удобнее, MLX — быстрее.
6. Полная стоимость: покупка + электричество
Сравнивать только цену GPU нечестно: RTX 3060 и 3090 нужны в системный блок. Считаем полную стоимость с доставкой, электричеством и сроком использования.
Стоимость полных систем (8 марта 2026)
| Компонент | ПК + RTX 3060 | ПК + RTX 3090 |
|---|---|---|
| Видеокарта | ~30 000 ₽ (3060 12 ГБ) | ~55–70 000 ₽ (3090 24 ГБ б/у) |
| Процессор (Ryzen 5 5600 / i5-12400) | ~12 000 ₽ | ~12 000 ₽ |
| Материнская плата | ~12 000 ₽ | ~12 000 ₽ |
| 32 ГБ DDR4/DDR5 RAM | ~8 000 ₽ | ~8 000 ₽ |
| SSD 1 ТБ NVMe | ~8 000 ₽ | ~8 000 ₽ |
| Блок питания (650W / 850W) | ~8 000 ₽ | ~12 000 ₽ |
| Корпус | ~6 000 ₽ | ~6 000 ₽ |
| Итого | ≈ 84–104 000 ₽ | ≈ 113–128 000 ₽ |
RTX 3090 — старая карта, хорошая цена б/у
RTX 3090 вышла в 2020 году, новые уже сложно найти. Б/у цена ~55–70 тыс. рублей (Авито, iXBT). При покупке проверяйте состояние термопасты и истории использования в майнинге — такие карточки могут иметь повышенный износ.
Полное сравнение: стоимость и характеристики
| Параметр | ПК RTX 3060 | ПК RTX 3090 | Mac Mini M4 16 ГБ | Mac Mini M4 24 ГБ | Mac Mini M4 Pro 24 ГБ |
|---|---|---|---|---|---|
| Стоимость системы | 84–104 тыс. ₽ | 113–128 тыс. ₽ | ~75 тыс. ₽ | ~125 тыс. ₽ | ~170 тыс. ₽ |
| Память для LLM | 12 ГБ VRAM | 24 ГБ VRAM | 16 ГБ | 24 ГБ | 24 ГБ |
| Bandwidth | 360 ГБ/с | 936 ГБ/с | 120 ГБ/с | 120 ГБ/с | 273 ГБ/с |
| Скорость 8B Q4 | ~60 tok/s | ~105 tok/s | ~30 tok/s | ~30 tok/s | ~50 tok/s |
| Скорость 14B Q4 | ~28 tok/s¹ | ~65 tok/s | ❌ | ~15 tok/s | ~28 tok/s |
| Скорость 22B Q4 | ⚠️ 4–7 tok/s | ~45 tok/s | ❌ | ~10 tok/s | ~20 tok/s |
| Скорость 32B Q4 | ⚠️ 2–4 tok/s | ~32 tok/s | ❌ | ⚠️ ~7 tok/s | ~12 tok/s |
| Потребление под нагрузкой | ~200 Вт | ~420–450 Вт | 20–30 Вт | 20–30 Вт | 25–35 Вт |
| Электричество/год² | ~3 500 ₽ | ~7 500 ₽ | ~440 ₽ | ~440 ₽ | ~530 ₽ |
| Шум | Заметный | Громкий | Почти нет | Почти нет | Почти нет |
| Апгрейд GPU | Можно | Можно | ❌ впаяна | ❌ впаяна | ❌ впаяна |
¹ 14B (8.5 ГБ) помещается в 12 ГБ VRAM, но остаётся лишь 3.5 ГБ на KV-кэш — контекст резко ограничен.
² Тариф 6 ₽/кВт·ч, работа 8 ч/день под нагрузкой LLM.
RTX 3090: скрытая стоимость — электричество
Система с RTX 3090 под нагрузкой потребляет ~430 Вт. При работе 8 ч/день: 430 Вт × 8 ч × 365 дней = 1 255 кВт·ч/год × 6 ₽ = ~7 530 ₽/год. Mac Mini M4 — ~440 ₽/год. Разница ~7 090 ₽/год. За 3 года переплата на электричестве ~21 300 ₽ — это почти треть цены Mac Mini M4 16 ГБ. Если система работает круглосуточно (сервер), разница утраивается.
7. Установка Ollama на macOS
На macOS установка Ollama значительно проще, чем на Linux. Два способа — выбирайте любой.
Способ 1: GUI-приложение (проще)
Скачайте Ollama.app с официального сайта ollama.com — установите как обычное приложение macOS. После запуска Ollama появится в строке меню (значок ламы). Дальше работайте в терминале:
# Скачать и запустить Llama 3.1 8B (~4.7 ГБ)
ollama run llama3.1:8b
# Другие популярные модели:
ollama run qwen2.5:7b # лучший выбор для русского языка
ollama run deepseek-r1:8b # с «цепочкой рассуждений»
ollama run mistral:7b # быстрый и универсальныйСпособ 2: Homebrew (для разработчиков)
# Установить Homebrew (если ещё нет)
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
# Установить Ollama
brew install ollama
# Запустить как фоновый сервис (старт при загрузке macOS)
brew services start ollama
# Проверить что работает
ollama listВеб-интерфейс: Open WebUI
Для красивого интерфейса как у ChatGPT установите Open WebUI через Docker. Сначала установите Docker Desktop for Mac с docker.com, затем:
docker run -d \
--name open-webui \
-p 3000:8080 \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
-v open-webui:/app/backend/data \
--restart always \
ghcr.io/open-webui/open-webui:main
# Открыть в браузере:
# http://localhost:3000MLX: +30–50% скорости (опционально)
MLX — библиотека машинного обучения от Apple, оптимизированная под Silicon. Работает быстрее Ollama, но требует Python и не имеет GUI.
# Установить Python и MLX
brew install python@3.11
pip install mlx-lm
# Запустить модель (скачивается автоматически с Hugging Face)
mlx_lm.generate \
--model mlx-community/Meta-Llama-3.1-8B-Instruct-4bit \
--prompt "Объясни квантование нейронных сетей простыми словами"
# Для русского языка — Qwen 2.5 7B
mlx_lm.generate \
--model mlx-community/Qwen2.5-7B-Instruct-4bit \
--prompt "Напиши функцию для сортировки на Python"Ollama или MLX?
Ollama — если хотите готовый сервис с API, Open WebUI, поддержку десятков приложений-клиентов. Установка два клика, работает из коробки.
MLX — если нужна максимальная скорость для скриптов и автоматизации. Требует Python, нет красивого интерфейса.
8. Какие модели запускать на каждой конфигурации
ПК с RTX 3060 12 ГБ
qwen2.5:7b4.4 ГБ58–65 tok/sЛучший выбор: быстро, хорошо понимает русский и код
llama3.1:8b4.7 ГБ55–65 tok/sУниверсальная: общение, вопросы, суммаризация
deepseek-r1:8b4.9 ГБ52–60 tok/sЛогика и математика с «цепочкой рассуждений»
llama3.2:11b~6.2 ГБ50–58 tok/sVision-модель с текстом тоже; хорошее качество в среднем классе
Держитесь моделей до 10B — они полностью помещаются в VRAM и работают быстро. 13B влезает, но KV-кэш ограничен.
ПК с RTX 3090 24 ГБ
qwen2.5:14b8.8 ГБ60–74 tok/sВысокое качество при отличной скорости — лучший выбор
deepseek-r1:32b~20 ГБ28–36 tok/sФлагманская reasoning-модель; помещается целиком в 24 ГБ VRAM
mistral-small3.1:22b13 ГБ40–52 tok/sДлинный контекст, хорошие рассуждения
llama3.1:8b4.7 ГБ95–115 tok/sЕсли нужна максимальная скорость — быстрее всех альтернатив
24 ГБ VRAM — можно запускать любые модели до 32B с хорошей скоростью. RTX 3090 — самый мощный вариант из рассмотренных.
Mac Mini M4 16 ГБ
qwen2.5:7b4.4 ГБ32–36 tok/sЛучший выбор: быстро, хорошо понимает русский и код
llama3.1:8b4.7 ГБ28–32 tok/sУниверсальная: общение, вопросы, суммаризация
deepseek-r1:8b4.9 ГБ24–28 tok/sЛогика и математика с «цепочкой рассуждений»
phi4:14b8.5 ГБ12–16 tok/sВысокое качество, но медленнее; держите контекст коротким
Держите не больше одной модели в памяти. Через MLX вместо Ollama 8B даёт 40–48 tok/s — сопоставимо с RTX 3060.
Mac Mini M4 24 ГБ
qwen2.5:14b8.8 ГБ13–17 tok/sХороший баланс качества и скорости — лучше, чем 7B
mistral-small3.1:22b13 ГБ9–12 tok/sВысокое качество рассуждений, длинный контекст
deepseek-r1:14b9 ГБ11–15 tok/sЛучшая reasoning-модель среднего размера
llama3.1:8b4.7 ГБ28–32 tok/sЕсли нужна скорость — оставляйте 8B в ротации
24 ГБ позволяет работать с 14–20B моделями там, где RTX 3060 уже не тянет. RTX 3090 на тех же моделях в 4–5 раз быстрее, но стоит дороже.
Mac Mini M4 Pro 24 ГБ
qwen2.5:14b8.8 ГБ25–31 tok/sБыстро и качественно — лучший повседневный выбор
llama3.1:8b4.7 ГБ45–55 tok/sСкорость ближе к RTX 3060, тихо и экономично
deepseek-r1:32b~20 ГБ11–14 tok/sТяжёлая reasoning-модель, которую 3060 не тянет вовсе
mistral-small3.1:22b13 ГБ17–23 tok/sКомфортный интерактивный чат с большой моделью
M4 Pro — хороший баланс. На 8B ~50 tok/s и при этом запускает 32B. RTX 3090 быстрее, но потребляет в 15 раз больше электричества.
9. Итог: кому что выбрать
Берите RTX 3060 (в существующий ПК) если…
- —У вас уже есть игровой ПК — просто добавить карту за 30 тыс. ₽, остальное уже есть
- —Работаете только с 7–13B моделями и важна максимальная скорость (~60 tok/s)
- —Нужна CUDA — ComfyUI, некоторые training-фреймворки работают только с CUDA
- —Планируете fine-tuning — там CUDA пока стандарт
- —Не нужны модели крупнее 13B — RTX 3060 на них лучший вариант по цене/скорости
Берите RTX 3090 (в существующий ПК или новую сборку) если…
- —Нужна максимальная скорость на всех размерах — 105 tok/s на 8B, 45 tok/s на 22B
- —Хотите запускать 32B модели (DeepSeek-R1 32B) с комфортной скоростью ~30 tok/s
- —У вас уже есть ПК и можно докупить только б/у 3090 за 55–70 тыс.
- —Важна CUDA-экосистема: fine-tuning, ComfyUI, специализированные инструменты
- —Электричество не критично — 18+ тыс. ₽/год при работе 8 ч/день вас устраивает
Берите Mac Mini M4 16 ГБ если…
- —Нет ПК вообще — Mac Mini M4 16 ГБ дешевле полной сборки с RTX 3060
- —Важен тихий и компактный компьютер, который не шумит ночью
- —Нужно разрабатывать под iOS/macOS или работать с macOS-экосистемой
- —Хватает 7–8B моделей для ваших задач (код, текст, чат)
- —Хотите попробовать локальный AI без больших вложений
Берите Mac Mini M4 24 ГБ если…
- —Хотите запускать 14–20B модели — они заметно умнее 7B, а 3060 их не тянет нормально
- —Бюджет ~125 тыс. ₽ — сопоставимо со сборкой ПК с RTX 3090, но тише и экономичнее
- —Устройство будет работать как сервер круглосуточно — электричество критично
- —Важна macOS-экосистема и компактность
Берите Mac Mini M4 Pro 24–48 ГБ если…
- —Нужен баланс скорости и ёмкости: ~50 tok/s на 8B и возможность запустить 32B
- —Используете LLM профессионально: кодогенерация, RAG-системы, автоматизация
- —Хотите 70B модели — нужен M4 Pro 48 ГБ или выше
- —Важна тихая работа при высокой нагрузке — M4 Pro практически бесшумный
- —Цена за производительность: 170 тыс. против ~120–130 тыс. за сборку с RTX 3090, зато тише и 25 Вт
Частые проблемы
Ollama на Mac «не видит» GPU, работает медленно
Проверьте: ollama ps — в колонке PROCESSOR должно быть 100% GPU. Если CPU — переустановите Ollama или скачайте официальное приложение с ollama.com.
Модель загружается, потом зависает при длинном запросе
KV-кэш переполнился. Уменьшите контекст: ollama run llama3.1:8b --parameter num_ctx 2048
Первый токен появляется через несколько секунд
Ollama выгружает неактивную модель и загружает нужную. Настройте OLLAMA_KEEP_ALIVE=60m, чтобы модель дольше оставалась в памяти.