Можно ли запустить Ollama без GPU, только на CPU?

Да. Ollama работает на CPU по умолчанию — GPU нужен только для ускорения. На CPU скорость генерации: 2–6 токен/сек в зависимости от процессора. Для автоматизации и API это вполне пригодно, для интерактивного чата — медленновато. Рекомендуем модели 7–8B на VPS с 8+ ГБ RAM.

Сколько оперативной памяти нужно для Ollama?

Зависит от модели. Llama 3.1 8B в квантизации Q4_K_M занимает около 5–6 ГБ RAM. Итого нужно 8 ГБ (6 ГБ модель + 2 ГБ на систему). Для Mistral 7B — аналогично. Для моделей 70B требуется 40+ ГБ RAM — это уже не стандартные VPS.

Чем Ollama лучше OpenAI API?

Данные остаются на вашем сервере — никуда не уходят. Нет стоимости за токены. Можно использовать оффлайн. Ollama API совместим с форматом OpenAI Chat API, так что многие приложения работают без изменений — просто меняете base_url на localhost.

Как подключить Open WebUI к Ollama?

Если Open WebUI запущен на том же сервере что и Ollama, при запуске контейнера передайте OLLAMA_BASE_URL=http://host.docker.internal:11434 (или IP хоста). Если на разных серверах — нужно открыть Ollama по сети через Nginx с базовой аутентификацией.

Совместим ли Ollama API с OpenAI?

Да. Ollama поддерживает эндпоинт /v1/chat/completions в формате OpenAI. Любые библиотеки и приложения, которые работают с OpenAI API, можно переключить на локальный Ollama, изменив base_url = "http://localhost:11434/v1" и api_key = "ollama".

Какую модель выбрать для русского языка?

Llama 3.1 8B и Mistral 7B неплохо понимают русский, но качество ниже чем на английском. Qwen 2.5 7B — хорошо работает с кириллицей, так как изначально обучался на многоязычных данных. Для лучшего качества на русском — берите модели от 14B+, например Qwen 2.5 14B или phi4 14B.

Как обновить Ollama до новой версии?

Достаточно повторно запустить скрипт установки: curl -fsSL https://ollama.com/install.sh | sh. Скрипт обнаружит существующую установку и обновит бинарник. Модели (weights) при этом не затрагиваются.

Ollama на VPS: запуск локальных AI-моделей — установка и настройка

1. Что такое Ollama и зачем это нужно

Ollama — инструмент для локального запуска больших языковых моделей (LLM). Он скачивает модель, управляет её жизненным циклом и предоставляет REST API, совместимый с форматом OpenAI. Никакого облака — всё на вашем сервере.

Приватность

Запросы и ответы не покидают ваш сервер. Подходит для конфиденциальных задач: корпоративные данные, личные документы, внутренние чат-боты.

Экономия

Нет оплаты за токены. VPS за 1 000–2 000 ₽/мес заменяет API-бюджет при активном использовании.

Свобода

Нет цензуры и ограничений политики использования. Работает оффлайн. Доступны дообученные модели под конкретные задачи.

Ollama устанавливается как systemd-сервис и автоматически стартует при загрузке. Поддерживает автоопределение GPU (NVIDIA CUDA, AMD ROCm), но отлично работает и на CPU-only VPS.

Без GPU — тоже работает

На обычном VPS без видеокарты Ollama запускает модели на CPU. Скорость: 2–6 токен/сек для 7–8B моделей. Для API-интеграций, автоматизации и генерации в фоне — вполне достаточно.

2. Требования к ресурсам по моделям

Ключевой параметр — количество RAM. Модели загружаются целиком в память. Ollama автоматически использует квантизацию Q4_K_M, которая сжимает веса в 4 раза практически без потери качества.

Модель	RAM (Q4)	VPS минимум	CPU скорость	Назначение
gemma2:2b	~2 ГБ	4 ГБ RAM	4–8 т/сек	Тесты, лёгкие задачи
llama3.2:3b	~2.5 ГБ	4 ГБ RAM	4–8 т/сек	Быстрые ответы, боты
mistral:7b	~5 ГБ	8 ГБ RAM	3–6 т/сек	Универсальная, быстрая
llama3.1:8b	~5.5 ГБ	8 ГБ RAM	3–6 т/сек	Лучший баланс качество/скорость
qwen2.5:7b	~5 ГБ	8 ГБ RAM	3–6 т/сек	Код, русский язык
gemma2:9b	~6 ГБ	8 ГБ RAM	3–5 т/сек	Аналитика, суммаризация
phi4:14b	~9 ГБ	16 ГБ RAM	2–4 т/сек	Точность, рассуждения
deepseek-r1:8b	~5.5 ГБ	8 ГБ RAM	3–6 т/сек	Логика, математика
qwen2.5:14b	~9 ГБ	16 ГБ RAM	2–4 т/сек	Код + русский, высокое качество
llama3.1:70b	~42 ГБ	64 ГБ RAM	< 1 т/сек	Максимум, нужен GPU

Практический совет

Для большинства задач на обычном VPS оптимальны модели 7–8B. llama3.1:8b или mistral:7b занимают 5–6 ГБ и дают хорошее качество. VPS с 8 ГБ RAM + 4 vCPU — минимально комфортная конфигурация. Модели 70B+ имеют смысл только с GPU.

3. Установка Ollama на Ubuntu

Предварительных зависимостей нет. Официальный скрипт устанавливает Ollama, регистрирует systemd-сервис и автоматически определяет NVIDIA GPU при наличии.

Установка одной командой (Ubuntu 22.04 / 24.04)

curl -fsSL https://ollama.com/install.sh | sh

Установка занимает 30–60 секунд. После этого сервис автоматически запущен:

Проверка статуса

systemctl status ollama
# ● ollama.service - Ollama Service
#    Loaded: loaded (/etc/systemd/system/ollama.service; enabled)
#    Active: active (running)

# Проверить версию
ollama --version
# ollama version is 0.6.x

# Проверить API
curl http://localhost:11434/
# Ollama is running

Где хранятся модели

По умолчанию модели скачиваются в ~/.ollama/models/ (для root — в /root/.ollama/models/). Путь можно изменить переменной OLLAMA_MODELS в systemd-конфиге. Учитывайте это при выборе размера диска: модель 7B занимает ~4–5 ГБ.

4. Первый запуск: загрузка и тест модели

Команда ollama run скачивает модель при первом вызове и запускает интерактивный чат.

Скачать и запустить Mistral 7B (~4.1 ГБ)

ollama run mistral:7b
# Pulling manifest
# Pulling fcc5a6bec9da... 100% ▕████████████▏ 4.1 GB
# Verifying sha256 digest
# >>> Send a message (/? for help)
>>> Напиши скрипт на Python для проверки доступности URL

Основные команды Ollama

# Скачать модель (без запуска)
ollama pull llama3.1:8b

# Список загруженных моделей
ollama list
# NAME                ID              SIZE    MODIFIED
# mistral:7b          f974a74358d6    4.1 GB  2 minutes ago
# llama3.1:8b         42182419e950    4.7 GB  1 hour ago

# Информация о модели
ollama show llama3.1:8b

# Удалить модель
ollama rm mistral:7b

# Выйти из интерактивного режима
# /bye или Ctrl+D

5. Open WebUI — веб-интерфейс как у ChatGPT

Open WebUI — open-source веб-интерфейс для Ollama. Выглядит и работает как ChatGPT: история чатов, переключение моделей, системные промпты, загрузка файлов. Устанавливается через Docker.

Установка Docker (если ещё не установлен)

Установка Docker на Ubuntu

curl -fsSL https://get.docker.com | sh
systemctl enable --now docker

Шаг 0: разрешить Ollama слушать на всех интерфейсах

По умолчанию Ollama слушает только 127.0.0.1:11434. Docker-контейнер обращается к хосту через bridge-IP (напр. 172.17.0.1), поэтому нужно разрешить Ollama принимать соединения со всех адресов:

Настройка OLLAMA_HOST через systemd override

mkdir -p /etc/systemd/system/ollama.service.d/
cat > /etc/systemd/system/ollama.service.d/override.conf << 'EOF'
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
EOF

systemctl daemon-reload
systemctl restart ollama

# Проверить, что теперь слушает 0.0.0.0
ss -tlnp | grep 11434
# LISTEN  0  128  0.0.0.0:11434  ...

Запуск Open WebUI

Запуск Open WebUI (Ollama на том же сервере)

docker run -d \
  --name open-webui \
  -p 3000:8080 \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --restart always \
  ghcr.io/open-webui/open-webui:main

После запуска Open WebUI доступен на http://<IP_вашего_VPS>:3000. Первый зарегистрированный аккаунт получает права администратора.

Важно: закройте порт 3000 от публичного доступа

Порт 3000 не должен быть открыт для всех — в Open WebUI нет встроенной защиты от перебора. Рекомендуем настроить Nginx с SSL или ограничить доступ по IP через UFW:ufw allow from ВАШ_IP to any port 3000

Проверить, что контейнер запущен

docker ps
# CONTAINER ID   IMAGE                                PORTS
# a1b2c3d4e5f6   ghcr.io/open-webui/open-webui:main  0.0.0.0:3000->8080/tcp

# Логи Open WebUI
docker logs open-webui --tail 50

6. REST API — интеграция в свои приложения

Ollama предоставляет REST API на порту 11434. Два основных эндпоинта: /api/generate для одного запроса и /api/chat для диалога с историей. Плюс совместимость с OpenAI через /v1/chat/completions.

/api/generate — простой запрос

Генерация текста (stream: false — ждём полного ответа)

curl http://localhost:11434/api/generate \
  -d '{
    "model": "llama3.1:8b",
    "prompt": "Объясни кратко что такое VPS",
    "stream": false
  }'

/api/chat — диалог с историей

Чат с системным промптом

curl http://localhost:11434/api/chat \
  -d '{
    "model": "llama3.1:8b",
    "messages": [
      {
        "role": "system",
        "content": "Отвечай кратко и по делу на русском языке."
      },
      {
        "role": "user",
        "content": "Сколько RAM нужно для VPS под WordPress?"
      }
    ],
    "stream": false
  }'

OpenAI-совместимый API

Приложения, написанные под OpenAI SDK, работают с Ollama без изменений кода — только меняется base_url:

Python — использование OpenAI SDK с Ollama

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama",  # обязателен по синтаксису, значение игнорируется
)

response = client.chat.completions.create(
    model="llama3.1:8b",
    messages=[
        {"role": "user", "content": "Напиши bash-скрипт для бэкапа директории"}
    ]
)

print(response.choices[0].message.content)

Список доступных моделей через API

curl http://localhost:11434/api/tags | python3 -m json.tool

7. Доступ по сети через Nginx

По умолчанию Ollama слушает только 127.0.0.1:11434 — снаружи недоступен. Чтобы использовать API с других машин, настройте Nginx как reverse proxy с базовой аутентификацией.

Шаг 1: установить Nginx и certbot

Nginx + SSL (если ещё не настроен)

apt install nginx certbot python3-certbot-nginx -y

Шаг 2: создать конфиг Nginx

/etc/nginx/sites-available/ollama

server {
    listen 80;
    server_name ollama.example.com;

    location / {
        proxy_pass         http://127.0.0.1:11434;
        proxy_buffering    off;
        proxy_read_timeout 300s;

        # Базовая аутентификация
        auth_basic           "Ollama API";
        auth_basic_user_file /etc/nginx/.htpasswd;
    }
}

Создать пользователя для auth_basic

apt install apache2-utils -y
htpasswd -c /etc/nginx/.htpasswd myuser
# New password: ****

ln -s /etc/nginx/sites-available/ollama /etc/nginx/sites-enabled/
nginx -t && systemctl reload nginx

# Получить SSL-сертификат
certbot --nginx -d ollama.example.com

Шаг 3: проверить доступ снаружи

Запрос к Ollama с удалённой машины

# С другой машины (замените домен и пароль)
curl https://ollama.example.com/api/tags \
  -u myuser:mypassword

# Использование в Python с аутентификацией (httpx передаёт Basic Auth правильно)
import httpx
from openai import OpenAI

client = OpenAI(
    base_url="https://ollama.example.com/v1",
    api_key="ollama",  # обязателен по синтаксису, Ollama игнорирует
    http_client=httpx.Client(auth=("myuser", "mypassword")),
)

Не открывайте Ollama без защиты

Если выставить Ollama напрямую через OLLAMA_HOST=0.0.0.0 без аутентификации — любой сможет использовать ваши модели и загружать новые. Всегда используйте Nginx + auth_basic или ограничивайте доступ по IP.

8. Какую модель выбрать

Выбор зависит от задачи и объёма RAM. Вот практические рекомендации:

4 ГБ

VPS 4 ГБ RAM — только лёгкие модели

Запустите gemma2:2b или llama3.2:3b (~2–2.5 ГБ). Подходит для тестирования и простых задач. Реальной продуктивной нагрузки тут нет.

8 ГБ

VPS 8 ГБ RAM — оптимально для большинства задач

Золотой стандарт: llama3.1:8b или mistral:7b. Для русского языка и кода — qwen2.5:7b. Скорость 3–6 т/сек на CPU — медленно для чата, но нормально для API и автоматизации.

16 ГБ

VPS 16 ГБ RAM — высокое качество без GPU

phi4:14b или qwen2.5:14b — заметно лучше 7–8B моделей в рассуждениях и работе с русским. Скорость 2–4 т/сек. Также можно держать несколько 7B моделей одновременно.

GPU

VPS с GPU (NVIDIA) — максимальная скорость

Скорость 30–80+ т/сек. 8B модели летают. Подходит для продакшн-нагрузки и интерактивных чат-ботов. Ollama автоматически определяет CUDA при установке.

Задача	Рекомендованная модель
Общение, вопросы и ответы	llama3.1:8b
Написание и редактирование кода	qwen2.5:7b или qwen2.5:14b
Логика, математика, рассуждения	deepseek-r1:8b
Суммаризация длинных текстов	mistral:7b или gemma2:9b
Работа с русскоязычным контентом	qwen2.5:7b
Минимальные ресурсы (4 ГБ RAM)	gemma2:2b или llama3.2:3b
Максимальное качество (16 ГБ)	phi4:14b

Ollama на VPS: запуск локальных AI-моделей