Аренда GPU под OpenCode и локальную LLM

О чём урок

Своей мощной видеокарты под рукой нет, а гонять код через чужие облачные API не хочется — ни по деньгам, ни по приватности. Решение: арендовать GPU по требованию, поднять на нём локальную модель и подключить к редактору. Включил перед работой, выключил после — платишь только за реально потраченные часы.

В этом уроке я показываю свою рабочую связку: vast.ai → Ollama → OpenCode.

Почему так, а не облачный API

Деньги. Аренда RTX 4090 — порядка $0.30–0.50/час. Включается и выключается одной командой.
Приватность. Код и промпты не уходят в чужой сервис — модель крутится на арендованной коробке.
Контроль. Любая open-weight модель, любая версия, никаких лимитов и модерации провайдера.

Это не «бесплатно» и не «вайбкодинг». Это инженерный сетап под реальную работу: дёшево, воспроизводимо, под контролем.

Что понадобится

аккаунт на vast.ai и API-ключ;
установленный OpenCode;
vastai CLI;
мои скрипты-обёртки (ссылка на материалы ниже).

Как это работает

gpu-up подбирает самый дешёвый подходящий оффер и поднимает инстанс.
На инстансе стартует Ollama и тянется выбранная модель.
Поднимается защищённый туннель, и порт модели проксируется к тебе на loopback.
OpenCode переключается на этот эндпоинт — и ты работаешь с локальной моделью как с обычной.

gpu-up                         # поднять GPU, дефолт: qwen3-coder на RTX 4090
gpu-status                     # что сейчас запущено, куда смотрит OpenCode
gpu-pause                      # перерыв: компьют-биллинг стоп, диск сохранён
gpu-resume                     # ~30 сек тёплый старт обратно
gpu-down                       # закончил: инстанс уничтожен, биллинг ноль

Главные затыки (и как не наступить)

Минимальный образ без ssh — туннель не поднимется. Бери *-devel-образ, где ssh-клиент уже есть.
Маленький диск — модель не влезет при pull. Под крупные модели поднимай диск заранее.
«Влезает ли модель» — считай по квантизации, а не по числу параметров. MoE-модели частично

уходят на CPU; «влезает» ≠ «резидентно на полной скорости».

Забыл выключить — капает биллинг. На короткий перерыв gpu-pause, на конец дня gpu-down.

Материалы

Ниже — мои рабочие скрипты (gpu-up / gpu-down / gpu-pause / gpu-resume / gpu-status) и README с разбором. Это мой личный сетап — забирай как основу под себя, пути и параметры подстроишь под свою машину.