Câu hỏi "thuê VPS GPU chạy DeepSeek hay LLM local thì tốn bao nhiêu?" mình nghe gần như mỗi tuần. Phần lớn anh em hỏi xong rồi mua nhầm: hoặc đốt tiền vào GPU mà workload chạy CPU thừa sức, hoặc cố nhét model 70B vào card 24GB rồi ngồi chửi vì OOM. Bài này gõ thẳng: khi nào thật sự cần GPU, mỗi cỡ model ăn bao nhiêu VRAM, và chi phí thực tế tháng 5/2026 là bao nhiêu.
Khi nào bạn THỰC SỰ cần GPU (và khi nào không)
Trước khi bàn card gì, hãy trả lời câu này: bạn cần inference (chạy model để sinh text) hay chỉ cần gọi API? Vì 80% use case của anh em vibe coder, gọi API DeepSeek/Gemini rẻ và nhanh hơn nhiều so với tự dựng GPU. GPU local chỉ đáng tiền trong các trường hợp cụ thể:
- Data nhạy cảm không được rời khỏi hạ tầng của bạn (nội bộ doanh nghiệp, hồ sơ khách hàng).
- Throughput lớn liên tục: bạn xử lý hàng triệu request/ngày, lúc đó tiền API vượt tiền tự host.
- Cần fine-tune hoặc chạy model không có trên API công khai.
- Latency cực thấp và không muốn phụ thuộc rate limit của bên thứ ba.
VRAM: con số quyết định tất cả
GPU cho LLM không phải đua tốc độ tính toán trước, mà đua dung lượng VRAM. Model phải nằm gọn trong VRAM thì mới chạy nhanh; tràn ra RAM hệ thống là tốc độ rớt thảm. Công thức thô để ước lượng:
VRAM cần (GB) ≈ số tham số (tỷ) × byte/tham số × 1.2 (overhead KV cache)
- FP16 (gốc): 2 byte/tham số
- INT8 (quant): 1 byte/tham số
- INT4 / Q4 (quant): ~0.5 byte/tham số
Quantization (Q4, Q8) là kỹ thuật nén trọng số xuống ít bit hơn, đổi một chút chất lượng lấy việc giảm VRAM mạnh. Với đa số tác vụ, Q4_K_M gần như không phân biệt được với bản FP16. Bảng dưới là số thực tế cho DeepSeek-R1 distill (tháng 5/2026):
| Model | VRAM (Q4) | GPU phù hợp | Dùng cho |
|---|---|---|---|
| R1-Distill 7B | ~4-5 GB | RTX 3060 / 4060 (8-12GB) | Chatbot nhẹ, tóm tắt, autocomplete |
| R1-Distill 14B | ~9-10 GB | RTX 4070 / 3090 (12-16GB) | Code assistant, RAG vừa |
| R1-Distill 32B | ~18-20 GB | RTX 3090 / 4090 (24GB) | Reasoning chất lượng cao, agent |
| R1 / V3 full 671B | ~376 GB (Q4) | 4-8× A100/H100 80GB | Production lớn, nghiên cứu |
Đừng quên KV cache: thủ phạm OOM ẩn
Con số VRAM ở bảng trên là cho trọng số model. Nhưng khi inference, mỗi token trong context còn cần bộ nhớ KV cache, và phần này phình theo độ dài context lẫn số request song song. Một model 7B gọn 5GB có thể đột ngột tràn VRAM khi bạn nhét context 32K token hoặc xử lý 10 request cùng lúc. Quy tắc thực chiến: chừa 15-25% VRAM trống cho KV cache, đừng tính sát nút. Card 24GB chạy model 20GB là vừa đẹp, chạy model 23GB là cầu OOM.
Consumer GPU vs A100/H100: chọn cái nào
Có hai thế giới GPU và giá cách nhau cả chục lần:
Consumer (RTX 4090, 3090)
VRAM 24GB, giá thuê cloud tháng 5/2026 rơi vào khoảng 0.31-0.69 USD/giờ tùy provider (Vast.ai, RunPod). Đủ sức chạy model tới ~32B ở Q4. Đây là sweet spot cho dev tự host: rẻ, nhanh cho model vừa và nhỏ. Hạn chế: không có NVLink để gộp VRAM hiệu quả, ECC kém, và một số provider/datacenter không cho dùng card consumer theo license.
Data-center (A100, H100, L40S)
A100 80GB thuê ~1.07-2.50 USD/giờ, H100 ~1.49-2.50 USD/giờ (spot có thể về ~1 USD). Cần khi model vượt 32B, hoặc chạy nhiều request song song (vLLM batching) cần băng thông VRAM lớn. H100 nhanh hơn A100 ~2-3 lần cho inference nhờ FP8 và băng thông HBM3. Với model 70B+, A100 80GB hoặc L40S 48GB là lựa chọn cân bằng giá/hiệu năng.
| GPU | VRAM | Giá thuê (USD/giờ) | Cỡ model tối đa (Q4) |
|---|---|---|---|
| RTX 4090 | 24 GB | ~0.31 - 0.69 | ~32B |
| A100 | 80 GB | ~1.07 - 2.50 | ~70B (1 card), 671B (nhiều card) |
| H100 | 80 GB | ~1.49 - 2.50 | ~70B (1 card), 671B (nhiều card) |
Chi phí thật: tự host có rẻ hơn API không?
Đây là phần anh em hay tính sai. Lấy ví dụ thuê RTX 4090 ở 0.50 USD/giờ chạy 24/7:
0.50 USD/giờ × 24 × 30 = 360 USD/tháng (~9.2 triệu VND)
So với DeepSeek API: v4-flash chỉ 0.14 USD/triệu token input, 0.28 USD/triệu token output. Với 9.2 triệu VND đó, bạn mua được khoảng 360 / 0.28 ≈ 1.28 tỷ token output từ API. Để tự host "hòa vốn" với GPU thuê 24/7, bạn phải xử lý lưu lượng cực lớn và liên tục - hầu hết dự án cá nhân không bao giờ chạm tới ngưỡng đó.
Benchmark thực tế: tokens/giây kỳ vọng
Để khỏi vẽ vời, đây là khoảng tốc độ sinh token (single request, Q4) mà anh em hay gặp trên từng cấu hình. Con số dao động theo context length và backend (vLLM thường nhanh hơn Ollama nhờ batching), nhưng đủ để bạn ước lượng trải nghiệm:
| Cấu hình | Model | Tốc độ (token/giây) | Cảm giác |
|---|---|---|---|
| CPU VPS 8 core | 7B Q4 | ~3-8 | Chậm, hợp batch/nền |
| RTX 4090 | 14B Q4 | ~50-80 | Mượt như chat real-time |
| RTX 4090 | 32B Q4 | ~25-40 | Đọc kịp, dùng được |
| A100 80GB | 70B Q4 | ~20-35 | Tốt cho model lớn |
| H100 80GB | 70B Q4 | ~40-60 | Nhanh nhất phân khúc đơn card |
Để dễ hình dung: người đọc trung bình "tiêu thụ" khoảng 5-7 token/giây. Nên bất cứ cấu hình nào trên ~10 token/giây đã cho cảm giác trả lời "ngay lập tức". Đó là lý do CPU VPS chạy 7B vẫn ổn cho tác vụ không cần real-time, và bạn không phải vội mua GPU đắt.
Inference nhẹ trên CPU VPS: hoàn toàn khả thi
Nhiều anh em không biết: model 7B quantized chạy được trên CPU VPS thường bằng llama.cpp, không cần GPU. Tốc độ tất nhiên chậm hơn (vài token/giây thay vì vài chục), nhưng cho các tác vụ batch không cần real-time - tóm tắt log, phân loại text, sinh nội dung nền - là quá đủ và rẻ hơn nhiều.
# Cài llama.cpp và chạy model GGUF Q4 trên CPU
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build && cmake --build build -j
# Tải model GGUF (ví dụ Qwen distill 7B Q4) từ Hugging Face
./build/bin/llama-cli \
-m models/deepseek-r1-distill-qwen-7b-Q4_K_M.gguf \
-p "Tóm tắt đoạn log sau:" \
-n 256 --threads 4
Một con TND Cloud VPS với 8 vCPU / 8GB RAM thừa sức chạy 7B Q4 cho workload batch. Nếu cần RAM nhiều hơn cho model 14B, lên gói cao hơn. Với người vừa học self-host, đây là cách rẻ nhất để nghịch mà không phải trả tiền GPU.
| Gói TND Cloud VPS SSD | Cấu hình | Giá/tháng | Hợp với |
|---|---|---|---|
| VPS 50 | 4 vCPU / 4GB | 639.000đ | Gọi API, agent nhẹ, dev/test |
| VPS 160 | 8 vCPU / 8GB / 160GB | 1.790.000đ | llama.cpp 7B Q4, RAG, automation |
| VPS 320 | 12 vCPU / 12GB / 320GB | 2.790.000đ | Inference CPU 14B, nhiều service song song |
Tất cả dùng ổ Ceph SSD NVMe nên load model GGUF (vài GB) vào RAM cũng nhanh. Nếu bạn mới bắt đầu hành trình tự host LLM, đọc thêm bài tổng hợp VPS cho vibe coder để chọn cấu hình phù hợp với workflow AI của mình.
vLLM hay Ollama cho production?
Khi đã có GPU, chọn engine cũng quan trọng. Ollama dễ cài nhất, một lệnh là chạy, hợp để nghịch và phục vụ một vài người dùng. vLLM phức tạp hơn nhưng có continuous batching - gộp nhiều request vào một lần forward, đẩy throughput lên nhiều lần khi tải cao. Nguyên tắc: đang học hay tải thấp dùng Ollama; lên production nhiều request đồng thời dùng vLLM hoặc TGI để tận dụng GPU hết công suất, tránh tình trạng card mạnh mà phục vụ được ít người.
Tóm gọn quyết định
- Chỉ gọi API (DeepSeek, Gemini) -> CPU VPS gói nhỏ là đủ, không cần GPU.
- Inference batch model 7B-14B -> CPU VPS + llama.cpp Q4, tiết kiệm nhất.
- Inference real-time 14B-32B -> RTX 3090/4090 24GB.
- Model 70B+ hoặc production lớn -> A100/H100 80GB, nhiều card cho bản 671B.
- Cần riêng tư data -> tự host bất kể chi phí, vì API gửi data ra ngoài.
Cần tư vấn cấu hình GPU cho dự án LLM?
Dòng GPU VPS của TND sắp ra mắt. Trong lúc chờ, nếu bạn cần inference nhẹ ngay hôm nay, TND Cloud VPS SSD (Ceph NVMe) chạy llama.cpp model 7B-14B mượt mà.
Xem bảng giá VPS SSD Vietnam »
Cần tư vấn riêng về GPU? Nhắn Messenger để tư vấn GPU »

