GPU VPS2026-05-18·11 phút đọc

Stable Diffusion + Flux trên GPU VPS với ComfyUI

Hướng dẫn cài ComfyUI + SDXL + Flux 1.1 Pro + Wan 2.1 Video trên GPU VPS RTX 4090 24GB tại TND. Workflow generate ảnh 4K + video 5s, benchmark thực tế, tối ưu VRAM.

TL;DR

GPU VPS RTX 4090 24GB của TND (1.9M/tháng) chạy được Flux 1.1 Pro full precision FP16, SDXL Turbo 1 step, và Wan 2.1 video 480p 5s. ComfyUI là backend tốt nhất 2026: hỗ trợ ControlNet, LoRA, IP-Adapter, AnimateDiff. Workflow tạo 1 ảnh 1024×1024 ~3.2s, video 5s ~110s.

Vì sao chọn ComfyUI thay vì Automatic1111 / Fooocus

Năm 2026 ComfyUI đã trở thành chuẩn de-facto cho production AI image/video. Lý do:

Spec GPU VPS phù hợp

Model use case GPU tối thiểu VRAM RAM Gói TND
SDXL 1024×1024 RTX 3090 / 4080 10GB 16GB L4 24GB - 990K
Flux 1.1 Dev FP8 RTX 4090 16GB 32GB RTX 4090 - 1.9M
Flux 1.1 Pro FP16 RTX 4090 / A6000 24GB 32GB RTX 4090 - 1.9M
Wan 2.1 Video 480p RTX 4090 20GB 32GB RTX 4090 - 1.9M
HunyuanVideo 720p A6000 48GB 40GB 64GB A6000 - 3.5M

Cài ComfyUI từ đầu trên Ubuntu 22.04

Bước 1: Chuẩn bị môi trường

# SSH vào GPU VPS
ssh [email protected]

# Cài CUDA 12.4 (mới nhất hỗ trợ Flux)
apt update && apt install -y python3.11 python3.11-venv git wget
nvidia-smi   # kiểm tra driver, cần >= 550

# Tạo venv
python3.11 -m venv /opt/comfyui-venv
source /opt/comfyui-venv/bin/activate

# Clone ComfyUI
cd /opt && git clone https://github.com/comfyanonymous/ComfyUI
cd ComfyUI
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu124
pip install -r requirements.txt

Bước 2: Cài ComfyUI Manager (custom node manager)

cd /opt/ComfyUI/custom_nodes
git clone https://github.com/ltdrdata/ComfyUI-Manager
cd /opt/ComfyUI && python main.py --listen 0.0.0.0 --port 8188

Bước 3: Tải models

# SDXL Base 1.0
wget -O models/checkpoints/sdxl-base-1.0.safetensors \
  https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/resolve/main/sd_xl_base_1.0.safetensors

# Flux 1.1 Dev FP8 (nhẹ, 12GB)
wget -O models/checkpoints/flux1-dev-fp8.safetensors \
  https://huggingface.co/Comfy-Org/flux1-dev/resolve/main/flux1-dev-fp8.safetensors

# Flux 1.1 Pro FP16 (full quality, 23GB) - cần HF token
huggingface-cli login
huggingface-cli download black-forest-labs/FLUX.1.1-pro flux1.1-pro.safetensors \
  --local-dir models/checkpoints/

# CLIP và VAE cho Flux
wget -O models/clip/clip_l.safetensors https://huggingface.co/comfyanonymous/flux_text_encoders/resolve/main/clip_l.safetensors
wget -O models/clip/t5xxl_fp16.safetensors https://huggingface.co/comfyanonymous/flux_text_encoders/resolve/main/t5xxl_fp16.safetensors
wget -O models/vae/ae.safetensors https://huggingface.co/black-forest-labs/FLUX.1-schnell/resolve/main/ae.safetensors

Benchmark thực tế RTX 4090 24GB

Test trên GPU VPS RTX 4090 của TND (Intel Xeon 8358, 32GB DDR4, NVMe Gen4), driver 555.42, CUDA 12.4, PyTorch 2.5:

Workflow Output Steps Thời gian/ảnh VRAM peak
SDXL Base 1024×1024 30 4.8s 9.2GB
SDXL Turbo 1024×1024 1 0.7s 8.1GB
Flux 1.1 Dev FP8 1024×1024 20 11.4s 14.6GB
Flux 1.1 Pro FP16 1024×1024 28 22.1s 22.8GB
SD3.5 Large 1024×1024 28 9.8s 15.4GB
Wan 2.1 T2V 480p 5s 854×480, 24fps 30 112s 21.5GB
LTX-Video 0.9.5 768×512, 5s 25 38s 18.2GB

Throughput thực tế: ~720 ảnh SDXL/giờ hoặc ~32 video LTX/giờ. Với giá 1.9M/tháng, cost per image SDXL = 1.9M ÷ (720 × 720h) = 3.7đ/ảnh - rẻ hơn 100 lần so với Midjourney API ($0.04/ảnh).

Workflow Flux 1.1 Pro + LoRA + Upscale 4K

Đây là workflow production phổ biến cho ảnh quảng cáo, thumbnail YouTube, social asset:

  1. Load Flux 1.1 Pro + CLIP-L + T5-XXL + VAE.
  2. Prompt: text encoded qua T5-XXL (cần ~6GB VRAM extra so với CLIP).
  3. Sampler: Euler + Beta scheduler, 28 steps, guidance 3.5.
  4. LoRA: load flux-realism-lora hoặc flux-anime-lora để tinh chỉnh style.
  5. Decode VAE: ra ảnh 1024×1024.
  6. Upscale 4× với 4xUltrasharp: 4096×4096 cuối cùng, thêm 6s.
  7. Face detailer (impact pack): refine face nếu có người.

Tổng thời gian: ~30s per ảnh 4K. Phù hợp batch 100 ảnh/giờ cho campaign social media.

Tối ưu VRAM nếu dùng GPU 16GB

Nếu bạn dùng RTX 4080 hoặc L4 (16GB/24GB), Flux Pro FP16 sẽ OOM. Cách giảm:

Expose ComfyUI thành API cho production

ComfyUI có sẵn endpoint POST /prompt. Đẩy workflow JSON, nhận image qua WebSocket. Wrap thêm 1 lớp FastAPI để rate limit + auth + queue:

# comfyui-api-wrapper.py
from fastapi import FastAPI, HTTPException
import httpx, json, uuid, asyncio

app = FastAPI()
COMFY = "http://localhost:8188"

@app.post("/generate")
async def generate(prompt: str, seed: int = -1):
    with open("workflows/flux-pro.json") as f:
        wf = json.load(f)
    wf["6"]["inputs"]["text"] = prompt
    wf["25"]["inputs"]["noise_seed"] = seed if seed != -1 else uuid.uuid4().int % 2**32

    client_id = str(uuid.uuid4())
    async with httpx.AsyncClient() as c:
        r = await c.post(f"{COMFY}/prompt",
            json={"prompt": wf, "client_id": client_id})
        prompt_id = r.json()["prompt_id"]

    # Poll history
    for _ in range(60):
        await asyncio.sleep(2)
        h = await c.get(f"{COMFY}/history/{prompt_id}")
        if h.json().get(prompt_id):
            outputs = h.json()[prompt_id]["outputs"]
            filename = outputs["9"]["images"][0]["filename"]
            return {"url": f"{COMFY}/view?filename={filename}"}
    raise HTTPException(504, "Timeout")

Tích hợp với n8n + Claude

Pipeline tự động sinh nội dung viral TikTok:

  1. Cron trigger n8n mỗi 4h trên VPS n8n.
  2. Claude API generate 5 idea video ngắn (topic, hook, scene description).
  3. Forward scene → ComfyUI generate keyframes Flux.
  4. Send keyframes → Wan 2.1 / LTX để tạo video 5s.
  5. FFmpeg concat 5 clip + add audio + caption.
  6. Upload TikTok qua API.

Use case business thực tế

Khuyến nghị TND: bắt đầu với gói RTX 4090 24GB (1.9M/tháng) để có đủ headroom cho cả Flux Pro và video. Nếu chỉ làm SDXL/SD3.5, gói L4 24GB (990K) là đủ và tiết kiệm 48%. So sánh chi tiết tại GPU VPS cho AI startup: ROI 2026.

FAQ

Q: ComfyUI có chạy được trên Windows không?

Có (portable build), nhưng latency Windows kernel cao hơn Linux ~12%. Production khuyến nghị Ubuntu 22.04.

Q: License Flux có cho phép thương mại không?

Flux Dev: chỉ non-commercial. Flux Schnell: Apache 2.0, thoải mái thương mại. Flux Pro: trả phí theo gọi API hoặc license riêng. SD3.5 Large: Stability Community License, free dưới $1M doanh thu/năm.

Q: Có thể train LoRA trên cùng GPU VPS không?

Có. Dùng kohya_ss hoặc OneTrainer, training SDXL LoRA ~30 phút trên RTX 4090, Flux LoRA ~2h. VRAM 24GB là tối thiểu cho Flux LoRA.

GPU VPS RTX 4090 cho AI Art

24GB VRAM, NVMe 500GB, traffic unlimited. Pre-installed ComfyUI + Flux Pro. Từ 1.900.000đ/tháng.

Thuê GPU VPS →

Cần tư vấn license + hạ tầng tại TND?

TND đại lý chính thức Microsoft / Adobe / Kaspersky / AutoDesk / VMware / TeamViewer / JetBrains tại Việt Nam - license genuine 100%, kích hoạt online từ nhà sản xuất. Hoá đơn VAT điện tử Thông tư 78 đầy đủ cho doanh nghiệp.

💬 Tư vấn miễn phí qua Facebook →