큰 GPU 없이 로컬 3D AI 모델을 테스트하는 방법 (클라우드 GPU 워크플로)

몇 주에 한 번씩 새로운 오픈소스 3D AI 모델이 등장하는데, 그중 절반은 같은 함정을 안고 옵니다 - 24 GB 이상의 VRAM을 요구한다는 것. 제 카드는 14 GB입니다. 하지만 저는 글을 쓰거나 Arena에 추가하기 전에 이 모델들을 제대로 테스트해 보고 싶습니다. 그래서 양자화 빌드나 호스팅 데모를 기다리지 않습니다 - 클라우드 GPU를 한 시간 빌리고, AI 코딩 에이전트가 처음부터 설치하게 한 다음, 실행합니다.

아래는 Roblox의 CubePart를 실행하기까지 제가 사용한 정확한 과정입니다 - 모든 명령어를 순서대로 담았습니다. 모델은 그저 예시일 뿐, 이 흐름은 어떤 무거운 로컬 3D AI 저장소에도 똑같이 적용됩니다. 결과물만 보고 싶다면 CubePart는 이미 top3d.ai에 올라와 있습니다 - 이 가이드는 직접 실행시키는 과정에 관한 것입니다.

이 글에서 얻게 될 것

반복 가능한 레시피: GPU를 빌리고, 에디터에서 SSH로 접속하고, 안전한 사용자를 만들고, AI 코딩 에이전트를 설치한 뒤, 클론 + 설치 + 모델 실행까지 에이전트에게 맡깁니다 - UI는 여러분의 브라우저로 바로 연결됩니다. 종료하는 순간 과금도 멈춥니다.

이 글의 계기가 된 실제 사례: 지금은 top3d.ai에서 볼 수 있는 Roblox CubePart 테스트.

문제: 24 GB 이상의 VRAM을 요구합니다

이 글 전체의 예시는 새로 나온 오픈소스 로컬 모델인 Roblox CubePart입니다 - 하지만 여기서 모델 자체는 그리 중요하지 않습니다. 중요한 것은 요구 사항입니다: Roblox는 일반 실행에 24 GB의 VRAM을 권장하는데, 제 카드는 14 GB입니다. 그것이 바로 벽이고, 대부분의 무거운 로컬 3D AI 모델이 여러분 앞에 세우는 것과 같은 벽입니다. 품질을 더 끌어올리면 48 GB조차 바닥납니다.

CubePart는 일반 실행에 약 24 GB를 요구합니다. 제 카드는 14 GB - 이것이 바로 그 벽입니다.

라이선스: 연구 전용, 상업적 사용 전 확인 필요

Roblox는 Cube/CubePart를 오픈소스라고 부르고 코드와 가중치도 공개되어 있지만, 라이선스는 Research-Only RAIL-MS입니다 - 학술 및 연구 용도 전용. 테스트, 데모, 학습에는 문제없지만, Roblox의 추가 허가 없이는 상업 제품이나 SaaS에 쓸 수 없습니다.

해결책: 클라우드 GPU를 한 시간 빌리기

하드웨어를 사는 대신, SSH 접근이 가능한 GPU를 빌려 처음부터 모든 것을 설치하고, 테스트를 돌린 뒤, 종료합니다. 이번에는 RunPod에서 A40(48 GB)을 썼습니다 - 과한 사양이지만 여유를 원했습니다. 비용은 시간당 약 $0.50이었습니다.

RunPod는 그저 제 예시일 뿐 - 스폰서가 아닙니다

저는 RunPod의 후원을 받지 않으며 이것은 광고가 아닙니다. 그저 제가 쓰는 서비스일 뿐입니다. SSH가 되는 클라우드 GPU라면 무엇이든 똑같이 작동합니다 - 아래 단계는 특정 공급자에 묶여 있지 않습니다. 몇 가지 대안:

Vast.ai - 가장 저렴한 마켓플레이스 가격
Lambda Cloud - 깔끔한 ML 특화 인스턴스
Paperspace (DigitalOcean) - 간단한 시간제 GPU
Modal / Replicate - 코드 우선, 서버리스 GPU

클라우드 GPU의 과소평가된 장점

깨끗한 머신에 처음부터 모든 것을 설치하게 됩니다 - 올바른 CUDA 휠, 모든 의존성, 로컬 환경에서 넘어온 충돌 찌꺼기 없이. 무거운 3D AI 저장소들은 환경 지옥으로 악명 높은데, 새 인스턴스는 그 대부분을 비켜 갑니다.

전체 워크플로, 명령어 하나하나

여유 있는 사양으로 파드 띄우기

RunPod에서 저는 A40(48 GB)을 골랐습니다 - 표준 CubePart 실행에는 24 GB면 충분합니다. 사람들이 놓치는 부분은 스토리지입니다: 이런 프로젝트는 가중치를 잔뜩 받아 오므로 약 50 GB의 컨테이너와 최대 100 GB의 영구 스토리지를 설정하세요.

여유를 위한 A40(48 GB) - 24 GB로도 되고, 더 저렴하게 갈 수도 있습니다. 시간당 약 $0.50.

SSH 키를 추가하고 연결 테스트하기

SSH 키는 그저 파일 한 쌍입니다 - 하나는 여러분 머신에 남는 개인 키, 하나는 공급자에게 건네는 공개 키 - 덕분에 비밀번호 없이 접속을 허용할 수 있습니다. ssh-keygen -t ed25519로 한 번만 생성하고, id_ed25519.pub의 내용을 RunPod의 Settings → SSH Public Keys에 붙여넣은 다음, Windows PowerShell에서 연결을 테스트하세요(파드에 표시되는 호스트/포트를 사용):

ssh root@<POD-IP> -p <PORT> -i ~/.ssh/id_ed25519

파드의 셸 안으로 들어가진다면 작동하는 것입니다.

RunPod 공식 단계별 가이드 (권장)

RunPod에는 SSH 키 생성, 계정에 추가, IDE 연결까지 스크린샷 하나하나로 다루는 명확한 가이드가 있습니다 - 그대로 따라 하세요: docs.runpod.io - Connect to your Pod from an IDE.

파드의 SSH 명령을 PowerShell에서 먼저 테스트 - 연결됩니다.

Remote-SSH로 Cursor / VS Code 연결하기

Cursor(또는 VS Code)에서 Ctrl+Shift+P → Remote-SSH: Open SSH Configuration File을 선택하고, 호스트 블록을 추가하세요(파드의 HostName과 Port를 채워 넣으세요):

Host runpod-cubepart
    HostName <POD-IP>
    User root
    Port <PORT>
    IdentityFile ~/.ssh/id_ed25519

그다음 Ctrl+Shift+P → Remote-SSH: Connect to Host → runpod-cubepart → Linux를 선택하고 /workspace 폴더를 여세요. 보관할 모든 것은 여기에 있어야 합니다 - 종료 후에도 살아남는 것은 영구 스토리지뿐입니다.

안전한 비루트(non-root) 사용자 만들기

접속은 root로 하게 됩니다. AI 에이전트를 자유롭게 풀어놓기 전에, 저는 일반 사용자를 만들어 에이전트가 root로 동작하지 않게 합니다. Cursor 터미널에서, 아직 root인 상태로:

apt update && apt install -y curl git sudo

useradd -m -s /bin/bash stefan
mkdir -p /workspace/stefan
chmod -R a+rwX /workspace/stefan
ls -ld /workspace/stefan

그 사용자로 전환하고 Claude Code 설치하기

새 사용자로 전환한 뒤(재접속할 필요 없습니다) 에이전트를 설치하세요. 여기서부터 에이전트는 root가 아니라 stefan으로 실행됩니다:

su - stefan
cd /workspace/stefan

curl -fsSL https://claude.ai/install.sh | bash
source ~/.bashrc
claude --version

첫 실행 시 claude가 로그인을 요청합니다 - 링크를 브라우저에서 열고 코드를 다시 붙여넣으면 됩니다.

Remote-SSH로 접속해 비루트 사용자로 실행 중, 에이전트 설치와 로그인까지 완료된 상태.

에이전트를 바이패스 모드로 실행하고 작업 맡기기

권한 확인 프롬프트를 건너뛰는 모드로 에이전트를 시작합니다 - 격리된 일회용 클라우드 박스이기 때문에 여기서는 안전합니다(Anthropic도 이 모드를 컨테이너/VM 안에서만 권장하는데, 지금이 정확히 그 경우입니다):

claude --dangerously-skip-permissions

여기서부터는 설치 명령을 제가 직접 입력하지 않습니다. 원하는 것을 그냥 일상 언어로 Claude에게 말합니다: CubePart 저장소를 클론하고, 모든 의존성과 함께 설치하고, 모델 가중치를 다운로드하고, 빠른 테스트를 한 번 돌려 달라고요. 에이전트는 바로 이 GPU에 맞는 CUDA 휠과 명령어를 알아서 찾아내 전체 과정을 처리합니다. 제가 항상 명시적으로 덧붙이는 한 가지 지시: /workspace에 설치할 것. 영구 스토리지 밖의 모든 것은 파드가 종료되면 지워지기 때문입니다.

PyTorch + CUDA 단계에서는 인내심을

의존성 설치에 10–15분이 걸릴 수 있습니다. 에이전트가 멈춘 것처럼 보일 수 있지만 - 아닙니다. 모든 준비가 끝나면 알려 줍니다.

의존성 설치, 가중치 다운로드, 첫 실행 통과까지 - 전부 빌린 GPU 위에서 에이전트가 진행했습니다.

Gradio 데모를 요청하고 브라우저에서 열기

CubePart는 Gradio 앱을 함께 제공합니다(ComfyUI 빌드는 없습니다). 저는 그냥 Claude에게 Gradio 데모를 실행하고 공개 공유 링크로 노출해 달라고 요청합니다. 앱이 시작되고 https://….gradio.live URL을 건네받습니다 - 그것을 제 노트북에서 열면 전체 UI가 뜨고, 모델은 클라우드 GPU에서 계속 돌아갑니다. 거기서부터는 평소의 Gradio 흐름입니다: GLB를 떨어뜨리고, 부위 이름을 입력하고, 실행.

제 로컬 브라우저에서 열린 gradio.live 링크 - 모델은 클라우드 GPU에서 실행됩니다.

이게 전부입니다 - 결과물은 어디서 보나

방법은 이것이 전부입니다: 로컬에서 돌릴 수 없던 모델이 GitHub 링크에서 제 브라우저 속 작동하는 UI가 되기까지, 비용은 1달러 남짓이었습니다. 다음 무거운 모델에도, 그다음 모델에도 같은 흐름이 통합니다.

CubePart가 실제로 무엇을 만들어 내는지 궁금하다면?

여기서 결과를 다시 늘어놓지는 않겠습니다 - CubePart는 이미 사이트에 올라와 있으니, 제 말을 믿는 대신 직접 확인할 수 있습니다. top3d.ai의 Segmentation Arena에서 열어 보세요.

비용, 정리, 그리고 언제 이 방법이 가치 있는가

시간당 ~$0.50

A40 48 GB. 테스트 세션 전체가 1~2달러입니다.

/workspace를 쓰세요

영구 스토리지는 종료 후에도 살아남고, 나머지는 모두 사라집니다.

목표는 24 GB

표준 CubePart에는 충분합니다. 해상도를 끌어올릴 때만 더 높이세요.

다 끝나면 그 즉시 파드를 종료하세요. 과금은 시간 단위이고 멈출 때까지 계속됩니다. 모델이 가끔만 필요하다면, 이 방식이 $2,000가 넘는 GPU를 사는 것보다 압도적으로 낫습니다 - 사용한 시간만큼만 지불하니까요. 매일같이 모델을 테스트한다면 그 계산이 뒤집혀 로컬 하드웨어가 합리적으로 보이기 시작합니다.

한 줄로 정리한 패턴

깨끗한 GPU 박스를 빌린다 → 에디터에서 SSH로 접속한다 → 안전한 사용자를 만든다 → AI 에이전트를 설치한다 → 영구 스토리지에 클론 + 설치하게 한다 → 공유 링크로 UI를 노출한다 → 테스트한다 → 종료한다. CubePart는 물론 사실상 모든 무거운 로컬 3D AI 모델에 통합니다.

이것이 제가 하드웨어 없이 무거운 모델들을 테스트하는 방법입니다. 새 모델은 끊임없이 나옵니다 - 나올 때마다 곧장 Arena에 올라가니, 여러분은 아무것도 설치하지 않고 바로 비교할 수 있습니다.