>_ openpromt
← все уроки
Урок 01

Аренда GPU под OpenCode и локальную LLM

⏱ ~20 мин 2026-05-31
⬇ Скачать материалы урока

О чём урок

Своей мощной видеокарты под рукой нет, а гонять код через чужие облачные API не хочется — ни по деньгам, ни по приватности. Решение: арендовать GPU по требованию, поднять на нём локальную модель и подключить к редактору. Включил перед работой, выключил после — платишь только за реально потраченные часы.

В этом уроке я показываю свою рабочую связку: vast.ai → Ollama → OpenCode.

Почему так, а не облачный API

  • Деньги. Аренда RTX 4090 — порядка $0.30–0.50/час. Включается и выключается одной командой.
  • Приватность. Код и промпты не уходят в чужой сервис — модель крутится на арендованной коробке.
  • Контроль. Любая open-weight модель, любая версия, никаких лимитов и модерации провайдера.
Это не «бесплатно» и не «вайбкодинг». Это инженерный сетап под реальную работу: дёшево, воспроизводимо, под контролем.

Что понадобится

  • аккаунт на vast.ai и API-ключ;
  • установленный OpenCode;
  • vastai CLI;
  • мои скрипты-обёртки (ссылка на материалы ниже).

Как это работает

  1. gpu-up подбирает самый дешёвый подходящий оффер и поднимает инстанс.
  2. На инстансе стартует Ollama и тянется выбранная модель.
  3. Поднимается защищённый туннель, и порт модели проксируется к тебе на loopback.
  4. OpenCode переключается на этот эндпоинт — и ты работаешь с локальной моделью как с обычной.
gpu-up                         # поднять GPU, дефолт: qwen3-coder на RTX 4090
gpu-status                     # что сейчас запущено, куда смотрит OpenCode
gpu-pause                      # перерыв: компьют-биллинг стоп, диск сохранён
gpu-resume                     # ~30 сек тёплый старт обратно
gpu-down                       # закончил: инстанс уничтожен, биллинг ноль

Главные затыки (и как не наступить)

  • Минимальный образ без ssh — туннель не поднимется. Бери *-devel-образ, где ssh-клиент уже есть.
  • Маленький диск — модель не влезет при pull. Под крупные модели поднимай диск заранее.
  • «Влезает ли модель» — считай по квантизации, а не по числу параметров. MoE-модели частично

уходят на CPU; «влезает» ≠ «резидентно на полной скорости».

  • Забыл выключить — капает биллинг. На короткий перерыв gpu-pause, на конец дня gpu-down.

Материалы

Ниже — мои рабочие скрипты (gpu-up / gpu-down / gpu-pause / gpu-resume / gpu-status) и README с разбором. Это мой личный сетап — забирай как основу под себя, пути и параметры подстроишь под свою машину.

⬇ Скачать материалы урока