Что такое унифицированная память и почему она важна для LLM?

На обычном ПК у вас два банка памяти: оперативная RAM (для CPU) и видеопамять VRAM (для GPU). Если модель не помещается в VRAM — её части постоянно гоняются по шине PCIe туда-обратно, что резко тормозит работу. На Apple Silicon единая память физически общая — CPU, GPU и Neural Engine работают с одним массивом без копирования. Поэтому Mac Mini с 24 ГБ RAM = 24 ГБ «GPU памяти» — никакого перетаскивания данных через PCIe.

RTX 3090 быстрее Mac Mini M4 на всех моделях — так зачем переплачивать за Mac?

RTX 3090 с 24 ГБ VRAM и 936 ГБ/с пропускной способностью действительно быстрее Mac Mini M4 base (120 ГБ/с) в 3–4 раза. Но учтите: полная сборка ПК с RTX 3090 обойдётся в 120–150 тыс. рублей против 125 тыс. за Mac Mini M4 24 ГБ. Система с 3090 под нагрузкой потребляет ~420–450 Вт против 25 Вт у Mac Mini — разница ~7 000 ₽/год при работе 8 ч/день. За 3 года переплата на электричестве ~21 000 ₽. Плюс Mac Mini бесшумный и служит полноценным рабочим компьютером под macOS. RTX 3090 выгоден, если у вас уже есть ПК и нужна только карточка.

Стоит ли переплачивать за Mac Mini M4 24 ГБ вместо 16 ГБ — насколько падает качество?

Главное — не квантизация, а размер модели. 16 ГБ позволяет комфортно запускать 7–8B модели (Qwen 7B, Llama 8B). 24 ГБ открывает 14–22B модели, которые заметно умнее. Переход 7B→14B — самый ощутимый прирост качества в ежедневной работе: лучший код, точнее следует инструкциям, стабильнее на длинном контексте. Переплата 50 тыс. рублей оправдана, если вы используете LLM как рабочий инструмент для кода или сложного анализа. Для бытового использования — чат, перевод, короткие тексты — 7B достаточно, берите 16 ГБ.

RTX 3060 быстрее Mac Mini для 7B моделей — зачем переплачивать?

RTX 3060 действительно быстрее на маленьких моделях: ~60 tok/s против ~30 tok/s на M4 base. Но: полная сборка ПК с 3060 — 85–110 тыс. рублей против 75 тыс. за Mac Mini M4 16 ГБ. Mac Mini потребляет 20–30 Вт против 200 Вт у ПК с 3060. И главное: RTX 3060 с 12 ГБ VRAM не может нормально запустить модели крупнее 13B, а Mac Mini M4 24 ГБ — запускает 20–32B без компромиссов.

Можно ли запустить Ollama на Mac Mini без GPU?

На Mac Mini нет дискретного GPU в классическом понимании. Но GPU-ядра встроены прямо в чип M4 и работают с унифицированной памятью на полной скорости. Ollama автоматически использует Metal (GPU-ускорение Apple) — просто устанавливаете и запускаете, никаких CUDA-драйверов настраивать не нужно.

MLX быстрее Ollama на Mac — стоит ли переходить?

Да, MLX (фреймворк Apple) даёт примерно +30–50% скорости по сравнению с Ollama+llama.cpp на Apple Silicon. Для Mac Mini M4 base: вместо 28–32 tok/s для Llama 3.1 8B получите 40–48 tok/s. Минус: MLX — библиотека Python, нет удобного GUI и совместимости с экосистемой Ollama-клиентов. Рекомендация: начните с Ollama, перейдите на MLX когда понадобится максимальная скорость.

Можно ли подключить Mac Mini к монитору и использовать как основной ПК?

Да, Mac Mini — полноценный компьютер, не одноплатник. Поддерживает до 3 мониторов (2× USB-C + 1× HDMI). Работает под macOS — браузер, мессенджеры, офис, разработка. При этом LLM через Ollama работают в фоне как сервис. Это удобно: один компьютер и для работы, и для локального AI.

Какие модели не помещаются в Mac Mini M4 16 ГБ?

Правило: оставляйте ~6 ГБ на систему и KV-кэш. Из 16 ГБ на модель остаётся ~10 ГБ. В Q4_K_M: 7B (~4.5 ГБ) — отлично, 8B (~5 ГБ) — отлично, 13B (~7.5 ГБ) — влезает, но для коротких контекстов, 14B (~8.5 ГБ) — на грани, лучше взять 24 ГБ. 32B и больше — нужен Mac Mini M4 Pro с 48 ГБ или выше.

LLM на Mac Mini M4: сравнение с RTX 3060 и RTX 3090

1. Зачем вообще запускать LLM локально

Большинство людей используют ChatGPT или Claude через браузер — и это удобно. Но у облачных сервисов есть три существенных ограничения:

Цена

GPT-4o — от $20/мес за подписку. API — от $2.50 за миллион токенов. При активном использовании выходит $50–150/мес.

Приватность

Все запросы уходят на сервера OpenAI/Anthropic. Рабочие документы, код, личные данные — всё логируется.

Ограничения

Лимиты сообщений, цензура, нельзя дообучить под задачу. Нет работы оффлайн, зависимость от интернета.

Локальный запуск решает все три проблемы. Вопрос только в том, какое железо купить, чтобы это было удобно и быстро, а не только теоретически возможно.

Сколько tok/s нужно для комфортной работы?

Человек читает со скоростью ~4–5 слов в секунду ≈ ~6 токен/сек. Уже 15–20 tok/s ощущается как «моментальный ответ» — текст появляется быстрее, чем вы успеваете читать. 30+ tok/s — отлично для интерактивного чата. Медленнее 5 tok/s — ощутимо тормозит.

2. Главная метрика: пропускная способность памяти

Чтобы сравнивать железо для LLM, нужно понять одну вещь: скорость генерации токенов определяется не количеством ядер и не тактовой частотой, а тем, как быстро GPU читает веса модели из памяти. Это называется memory bandwidth (пропускная способность памяти).

Как устроен обычный ПК

В обычном ПК у процессора и видеокарты раздельная память. CPU работает с оперативкой (DDR5), а GPU — со своей видеопамятью VRAM. Если модель не помещается в VRAM, остаток переносится в RAM и при каждом шаге генерации данные гоняются через шину PCIe (~32 ГБ/с). Разница с VRAM в 10–30 раз — скорость падает катастрофически.

Устройство	«GPU» памяти	Bandwidth	Тип памяти
RTX 3060	12 ГБ	360 ГБ/с	GDDR6 (отдельная)
RTX 3090	24 ГБ	936 ГБ/с	GDDR6X (отдельная)
Mac Mini M4 base	16 / 24 ГБ	120 ГБ/с	Унифицированная LPDDR5X
Mac Mini M4 Pro	24 / 48 / 64 ГБ	273 ГБ/с	Унифицированная LPDDR5X

Ключевые различия по памяти

RTX 3060 — 12 ГБ VRAM

Модели крупнее 10B не помещаются. Offload в RAM через PCIe — скорость падает в 10–15 раз.

RTX 3090 — 24 ГБ VRAM

Запускает 32B модели целиком. Высокая bandwidth 936 ГБ/с → самый быстрый вариант, но 350W TDP.

Mac Mini — единая память

CPU и GPU разделяют одну физическую память. 24 ГБ = 24 ГБ для модели без PCIe-ограничений. Bandwidth ниже, зато 25 Вт.

Вывод: RTX 3090 выигрывает по скорости на всех размерах моделей, которые помещаются в 24 ГБ. Mac Mini M4 base (120 ГБ/с) медленнее в 3–4 раза, но потребляет в 15–18 раз меньше электричества. RTX 3060 ограничен 12 ГБ — на больших моделях проигрывает обоим.

3. Линейка Mac Mini M4: какой выбрать

Apple выпустила Mac Mini M4 в ноябре 2024 года. Доступно несколько конфигураций — объём памяти и чип самый важный параметр для LLM.

Модель	Память	Bandwidth	Цена (Россия)	Макс. LLM
Mac Mini M4	16 ГБ	120 ГБ/с	~75 000 ₽	до 13B комфортно
Mac Mini M4	24 ГБ	120 ГБ/с	~125 000 ₽	до 20B
Mac Mini M4 Pro	24 ГБ	273 ГБ/с	~170 000 ₽	до 24B быстро
Mac Mini M4 Pro	48 ГБ	273 ГБ/с	~210 000 ₽	до 70B
Mac Mini M4 Pro	64 ГБ	273 ГБ/с	~240 000 ₽	70B комфортно

Цены в России — параллельный импорт

Apple не работает в России официально с 2022 года. Цены выше — техника завозится через параллельный импорт. Стоимость актуальна для 8 марта 2026 по данным DNS, re:Store и apple-market.ru. Разброс между магазинами может быть 5–15%.

4. 16 ГБ или 24 ГБ: как падает качество моделей

Это самый важный практический вопрос при выборе Mac Mini. Главное: качество определяется размером модели, а не квантизацией. Снижение квантизации с Q8 до Q4_K_M даёт потерю ~2–5% на бенчмарках — на практике почти незаметно. А переход с 7B на 14B — это принципиально другая модель.

Как растёт качество с размером модели

Задача	7–8B Mac 16 ГБ	13–14B Mac 24 ГБ	20–22B Mac 24 ГБ	32B RTX 3090 / Pro 24
Простой чат, перевод	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Суммаризация текста	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Генерация кода	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Сложные инструкции	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Многошаговое рассуждение	⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Длинный контекст (16K+)	⭐⭐	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Русский язык (Qwen)	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐

Самый ощутимый прыжок: 7B → 14B

Переход с 7B на 14B — это наибольший практический прирост качества за наименьшую доплату по памяти. Модели 14B (Qwen 2.5 14B, Phi-4 14B) пишут код заметно чище, лучше удерживают контекст разговора, точнее следуют многоступенчатым инструкциям. Переход 14B → 22B тоже заметен, но менее драматичен. 22B → 32B — скорее для специализированных задач: сложная математика, длинные reasoning-цепочки.

Когда 16 ГБ достаточно

✓Ежедневный чат, вопросы и ответы, переводы
✓Генерация коротких текстов: письма, посты, описания
✓Код для учёбы или несложных скриптов на Python/JS
✓Эксперименты с LLM — хотите попробовать и понять технологию
✓Работаете с Qwen 7B на русском — он вполне хорош для бытовых задач

Когда 24 ГБ реально оправданы

✓Генерация и ревью кода для реальных проектов — разница с 7B очень заметна
✓Работаете с длинными документами, суммаризация, анализ текстов (нужен большой KV-кэш)
✓LLM используется как рабочий инструмент несколько часов в день
✓RAG-системы и автоматизация — 14B+ точнее следует структурированным инструкциям
✓Русскоязычные задачи: Qwen 2.5 14B значительно лучше Qwen 2.5 7B в сложных текстах
✓Хотите пробовать reasoning-модели: DeepSeek-R1 14B несравнимо лучше 8B для логики

Ориентир по цене вопроса

Разница M4 16 ГБ → M4 24 ГБ: ~50 000 ₽. Если вы используете LLM как инструмент для работы хотя бы 2–3 часа в день — переплата окупается в удобстве и качестве за месяцы. Если это хобби или «потыкать раз в неделю» — возьмите 16 ГБ и лучше сэкономьте.

5. Замеры скорости: Mac Mini vs RTX 3060 vs RTX 3090

Сравниваем генерацию токенов в секунду (tok/s) на одних и тех же моделях. Все замеры — через Ollama: Metal (Mac), CUDA (NVIDIA). Квантизация Q4_K_M, контекст 2048 токенов.

Модель	RTX 3060 12 ГБ · 360 ГБ/с	RTX 3090 24 ГБ · 936 ГБ/с	M4 16 ГБ 120 ГБ/с	M4 24 ГБ 120 ГБ/с	M4 Pro 24 ГБ 273 ГБ/с
Llama 3.1 8B Q4	55–65	95–115	28–32	28–32	45–55
Qwen 2.5 7B Q4	58–65	100–120	32–36	32–36	50–60
DeepSeek-R1 8B Q4	52–60	90–108	24–28	24–28	42–50
Llama 3.2 11B Q4	50–58	90–108	18–23	18–23	38–46
Qwen 2.5 14B Q4	26–32 ⚠️	60–74	❌	13–17	25–31
Mistral 22B Q4	⚠️ 4–7	40–52	❌	9–12	17–23
DeepSeek-R1 32B Q4	⚠️ 2–4	28–36	❌	⚠️ 6–9	11–14
Llama 3.1 70B Q4	❌	❌	❌	❌	❌

⚠️ — тяжёлый offload в RAM или сильно ограниченный KV-кэш. ❌ — модель не помещается. Данные: hardware-corner.net, like2byte.com, замеры сообщества Ollama (2025–2026).

RTX 3090 — быстрейший вариант для 8B–32B

936 ГБ/с bandwidth даёт 95–115 tok/s на 8B и 28–36 tok/s на 32B модели — DeepSeek-R1 32B помещается целиком и работает с комфортной скоростью. Mac Mini M4 Pro уступает по скорости в 1.5–2.5 раза, хотя тоже работает с теми же моделями.

RTX 3060 — стена в 12 ГБ

На 7–13B RTX 3060 быстрый (32–65 tok/s), но модели крупнее 13B начинают offload в RAM через PCIe. На 22B получаете 4–7 tok/s — это хуже, чем Mac Mini M4 base с его 9–12 tok/s. На 32B карточка практически непригодна (2–4 tok/s).

Mac Mini M4 base — меньший bandwidth, те же возможности

120 ГБ/с — в 2.5–7 раз медленнее RTX 3090 по скорости генерации. Но 24 ГБ унифицированной памяти позволяет запускать те же 32B модели, что и 3090. При работе через MLX вместо Ollama прирост +30–50%: 8B модель даёт ~40–48 tok/s.

Бонус: MLX быстрее Ollama на Apple Silicon

Если использовать MLX (фреймворк Apple) вместо Ollama+llama.cpp, скорость на Apple Silicon вырастает на 30–50%. M4 base 16 ГБ на Llama 3.1 8B: вместо 28–32 tok/s получите 40–48 tok/s. M4 Pro 24 ГБ — до 70+ tok/s. Ollama удобнее, MLX — быстрее.

6. Полная стоимость: покупка + электричество

Сравнивать только цену GPU нечестно: RTX 3060 и 3090 нужны в системный блок. Считаем полную стоимость с доставкой, электричеством и сроком использования.

Стоимость полных систем (8 марта 2026)

Компонент	ПК + RTX 3060	ПК + RTX 3090
Видеокарта	~30 000 ₽ (3060 12 ГБ)	~55–70 000 ₽ (3090 24 ГБ б/у)
Процессор (Ryzen 5 5600 / i5-12400)	~12 000 ₽	~12 000 ₽
Материнская плата	~12 000 ₽	~12 000 ₽
32 ГБ DDR4/DDR5 RAM	~8 000 ₽	~8 000 ₽
SSD 1 ТБ NVMe	~8 000 ₽	~8 000 ₽
Блок питания (650W / 850W)	~8 000 ₽	~12 000 ₽
Корпус	~6 000 ₽	~6 000 ₽
Итого	≈ 84–104 000 ₽	≈ 113–128 000 ₽

RTX 3090 — старая карта, хорошая цена б/у

RTX 3090 вышла в 2020 году, новые уже сложно найти. Б/у цена ~55–70 тыс. рублей (Авито, iXBT). При покупке проверяйте состояние термопасты и истории использования в майнинге — такие карточки могут иметь повышенный износ.

Полное сравнение: стоимость и характеристики

Параметр	ПК RTX 3060	ПК RTX 3090	Mac Mini M4 16 ГБ	Mac Mini M4 24 ГБ	Mac Mini M4 Pro 24 ГБ
Стоимость системы	84–104 тыс. ₽	113–128 тыс. ₽	~75 тыс. ₽	~125 тыс. ₽	~170 тыс. ₽
Память для LLM	12 ГБ VRAM	24 ГБ VRAM	16 ГБ	24 ГБ	24 ГБ
Bandwidth	360 ГБ/с	936 ГБ/с	120 ГБ/с	120 ГБ/с	273 ГБ/с
Скорость 8B Q4	~60 tok/s	~105 tok/s	~30 tok/s	~30 tok/s	~50 tok/s
Скорость 14B Q4	~28 tok/s¹	~65 tok/s	❌	~15 tok/s	~28 tok/s
Скорость 22B Q4	⚠️ 4–7 tok/s	~45 tok/s	❌	~10 tok/s	~20 tok/s
Скорость 32B Q4	⚠️ 2–4 tok/s	~32 tok/s	❌	⚠️ ~7 tok/s	~12 tok/s
Потребление под нагрузкой	~200 Вт	~420–450 Вт	20–30 Вт	20–30 Вт	25–35 Вт
Электричество/год²	~3 500 ₽	~7 500 ₽	~440 ₽	~440 ₽	~530 ₽
Шум	Заметный	Громкий	Почти нет	Почти нет	Почти нет
Апгрейд GPU	Можно	Можно	❌ впаяна	❌ впаяна	❌ впаяна

¹ 14B (8.5 ГБ) помещается в 12 ГБ VRAM, но остаётся лишь 3.5 ГБ на KV-кэш — контекст резко ограничен.
² Тариф 6 ₽/кВт·ч, работа 8 ч/день под нагрузкой LLM.

RTX 3090: скрытая стоимость — электричество

Система с RTX 3090 под нагрузкой потребляет ~430 Вт. При работе 8 ч/день: 430 Вт × 8 ч × 365 дней = 1 255 кВт·ч/год × 6 ₽ = ~7 530 ₽/год. Mac Mini M4 — ~440 ₽/год. Разница ~7 090 ₽/год. За 3 года переплата на электричестве ~21 300 ₽ — это почти треть цены Mac Mini M4 16 ГБ. Если система работает круглосуточно (сервер), разница утраивается.

7. Установка Ollama на macOS

На macOS установка Ollama значительно проще, чем на Linux. Два способа — выбирайте любой.

Способ 1: GUI-приложение (проще)

Скачайте Ollama.app с официального сайта ollama.com — установите как обычное приложение macOS. После запуска Ollama появится в строке меню (значок ламы). Дальше работайте в терминале:

Terminal — запуск первой модели

# Скачать и запустить Llama 3.1 8B (~4.7 ГБ)
ollama run llama3.1:8b

# Другие популярные модели:
ollama run qwen2.5:7b         # лучший выбор для русского языка
ollama run deepseek-r1:8b     # с «цепочкой рассуждений»
ollama run mistral:7b         # быстрый и универсальный

Способ 2: Homebrew (для разработчиков)

Установка через Homebrew

# Установить Homebrew (если ещё нет)
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

# Установить Ollama
brew install ollama

# Запустить как фоновый сервис (старт при загрузке macOS)
brew services start ollama

# Проверить что работает
ollama list

Веб-интерфейс: Open WebUI

Для красивого интерфейса как у ChatGPT установите Open WebUI через Docker. Сначала установите Docker Desktop for Mac с docker.com, затем:

Запуск Open WebUI (Ollama должен быть запущен)

docker run -d \
  --name open-webui \
  -p 3000:8080 \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  -v open-webui:/app/backend/data \
  --restart always \
  ghcr.io/open-webui/open-webui:main

# Открыть в браузере:
# http://localhost:3000

MLX: +30–50% скорости (опционально)

MLX — библиотека машинного обучения от Apple, оптимизированная под Silicon. Работает быстрее Ollama, но требует Python и не имеет GUI.

Установка MLX и запуск модели

# Установить Python и MLX
brew install python@3.11
pip install mlx-lm

# Запустить модель (скачивается автоматически с Hugging Face)
mlx_lm.generate \
  --model mlx-community/Meta-Llama-3.1-8B-Instruct-4bit \
  --prompt "Объясни квантование нейронных сетей простыми словами"

# Для русского языка — Qwen 2.5 7B
mlx_lm.generate \
  --model mlx-community/Qwen2.5-7B-Instruct-4bit \
  --prompt "Напиши функцию для сортировки на Python"

Ollama или MLX?

Ollama — если хотите готовый сервис с API, Open WebUI, поддержку десятков приложений-клиентов. Установка два клика, работает из коробки.
MLX — если нужна максимальная скорость для скриптов и автоматизации. Требует Python, нет красивого интерфейса.

8. Какие модели запускать на каждой конфигурации

RTX 3060

ПК с RTX 3060 12 ГБ

qwen2.5:7b4.4 ГБ58–65 tok/s

Лучший выбор: быстро, хорошо понимает русский и код

llama3.1:8b4.7 ГБ55–65 tok/s

Универсальная: общение, вопросы, суммаризация

deepseek-r1:8b4.9 ГБ52–60 tok/s

Логика и математика с «цепочкой рассуждений»

llama3.2:11b~6.2 ГБ50–58 tok/s

Vision-модель с текстом тоже; хорошее качество в среднем классе

Держитесь моделей до 10B — они полностью помещаются в VRAM и работают быстро. 13B влезает, но KV-кэш ограничен.

RTX 3090

ПК с RTX 3090 24 ГБ

qwen2.5:14b8.8 ГБ60–74 tok/s

Высокое качество при отличной скорости — лучший выбор

deepseek-r1:32b~20 ГБ28–36 tok/s

Флагманская reasoning-модель; помещается целиком в 24 ГБ VRAM

mistral-small3.1:22b13 ГБ40–52 tok/s

Длинный контекст, хорошие рассуждения

llama3.1:8b4.7 ГБ95–115 tok/s

Если нужна максимальная скорость — быстрее всех альтернатив

24 ГБ VRAM — можно запускать любые модели до 32B с хорошей скоростью. RTX 3090 — самый мощный вариант из рассмотренных.

M4 16 ГБ

Mac Mini M4 16 ГБ

qwen2.5:7b4.4 ГБ32–36 tok/s

Лучший выбор: быстро, хорошо понимает русский и код

llama3.1:8b4.7 ГБ28–32 tok/s

Универсальная: общение, вопросы, суммаризация

deepseek-r1:8b4.9 ГБ24–28 tok/s

Логика и математика с «цепочкой рассуждений»

phi4:14b8.5 ГБ12–16 tok/s

Высокое качество, но медленнее; держите контекст коротким

Держите не больше одной модели в памяти. Через MLX вместо Ollama 8B даёт 40–48 tok/s — сопоставимо с RTX 3060.

M4 24 ГБ

Mac Mini M4 24 ГБ

qwen2.5:14b8.8 ГБ13–17 tok/s

Хороший баланс качества и скорости — лучше, чем 7B

mistral-small3.1:22b13 ГБ9–12 tok/s

Высокое качество рассуждений, длинный контекст

deepseek-r1:14b9 ГБ11–15 tok/s

Лучшая reasoning-модель среднего размера

llama3.1:8b4.7 ГБ28–32 tok/s

Если нужна скорость — оставляйте 8B в ротации

24 ГБ позволяет работать с 14–20B моделями там, где RTX 3060 уже не тянет. RTX 3090 на тех же моделях в 4–5 раз быстрее, но стоит дороже.

Pro 24 ГБ

Mac Mini M4 Pro 24 ГБ

qwen2.5:14b8.8 ГБ25–31 tok/s

Быстро и качественно — лучший повседневный выбор

llama3.1:8b4.7 ГБ45–55 tok/s

Скорость ближе к RTX 3060, тихо и экономично

deepseek-r1:32b~20 ГБ11–14 tok/s

Тяжёлая reasoning-модель, которую 3060 не тянет вовсе

mistral-small3.1:22b13 ГБ17–23 tok/s

Комфортный интерактивный чат с большой моделью

M4 Pro — хороший баланс. На 8B ~50 tok/s и при этом запускает 32B. RTX 3090 быстрее, но потребляет в 15 раз больше электричества.

9. Итог: кому что выбрать

Берите RTX 3060 (в существующий ПК) если…

—У вас уже есть игровой ПК — просто добавить карту за 30 тыс. ₽, остальное уже есть
—Работаете только с 7–13B моделями и важна максимальная скорость (~60 tok/s)
—Нужна CUDA — ComfyUI, некоторые training-фреймворки работают только с CUDA
—Планируете fine-tuning — там CUDA пока стандарт
—Не нужны модели крупнее 13B — RTX 3060 на них лучший вариант по цене/скорости

Берите RTX 3090 (в существующий ПК или новую сборку) если…

—Нужна максимальная скорость на всех размерах — 105 tok/s на 8B, 45 tok/s на 22B
—Хотите запускать 32B модели (DeepSeek-R1 32B) с комфортной скоростью ~30 tok/s
—У вас уже есть ПК и можно докупить только б/у 3090 за 55–70 тыс.
—Важна CUDA-экосистема: fine-tuning, ComfyUI, специализированные инструменты
—Электричество не критично — 18+ тыс. ₽/год при работе 8 ч/день вас устраивает

Берите Mac Mini M4 16 ГБ если…

—Нет ПК вообще — Mac Mini M4 16 ГБ дешевле полной сборки с RTX 3060
—Важен тихий и компактный компьютер, который не шумит ночью
—Нужно разрабатывать под iOS/macOS или работать с macOS-экосистемой
—Хватает 7–8B моделей для ваших задач (код, текст, чат)
—Хотите попробовать локальный AI без больших вложений

Берите Mac Mini M4 24 ГБ если…

—Хотите запускать 14–20B модели — они заметно умнее 7B, а 3060 их не тянет нормально
—Бюджет ~125 тыс. ₽ — сопоставимо со сборкой ПК с RTX 3090, но тише и экономичнее
—Устройство будет работать как сервер круглосуточно — электричество критично
—Важна macOS-экосистема и компактность

Берите Mac Mini M4 Pro 24–48 ГБ если…

—Нужен баланс скорости и ёмкости: ~50 tok/s на 8B и возможность запустить 32B
—Используете LLM профессионально: кодогенерация, RAG-системы, автоматизация
—Хотите 70B модели — нужен M4 Pro 48 ГБ или выше
—Важна тихая работа при высокой нагрузке — M4 Pro практически бесшумный
—Цена за производительность: 170 тыс. против ~120–130 тыс. за сборку с RTX 3090, зато тише и 25 Вт

Частые проблемы

Ollama на Mac «не видит» GPU, работает медленно

Проверьте: ollama ps — в колонке PROCESSOR должно быть 100% GPU. Если CPU — переустановите Ollama или скачайте официальное приложение с ollama.com.

Модель загружается, потом зависает при длинном запросе

KV-кэш переполнился. Уменьшите контекст: ollama run llama3.1:8b --parameter num_ctx 2048

Первый токен появляется через несколько секунд

Ollama выгружает неактивную модель и загружает нужную. Настройте OLLAMA_KEEP_ALIVE=60m, чтобы модель дольше оставалась в памяти.