Thuê VPS GPU chạy DeepSeek / LLM local: chi phí thật + benchmark

Chia sẻ bài viết

Minh hoạ thuê VPS GPU chạy DeepSeek LLM local

Câu hỏi "thuê VPS GPU chạy DeepSeek hay LLM local thì tốn bao nhiêu?" mình nghe gần như mỗi tuần. Phần lớn anh em hỏi xong rồi mua nhầm: hoặc đốt tiền vào GPU mà workload chạy CPU thừa sức, hoặc cố nhét model 70B vào card 24GB rồi ngồi chửi vì OOM. Bài này gõ thẳng: khi nào thật sự cần GPU, mỗi cỡ model ăn bao nhiêu VRAM, và chi phí thực tế tháng 5/2026 là bao nhiêu.

Khi nào bạn THỰC SỰ cần GPU (và khi nào không)

Trước khi bàn card gì, hãy trả lời câu này: bạn cần inference (chạy model để sinh text) hay chỉ cần gọi API? Vì 80% use case của anh em vibe coder, gọi API DeepSeek/Gemini rẻ và nhanh hơn nhiều so với tự dựng GPU. GPU local chỉ đáng tiền trong các trường hợp cụ thể:

Data nhạy cảm không được rời khỏi hạ tầng của bạn (nội bộ doanh nghiệp, hồ sơ khách hàng).
Throughput lớn liên tục: bạn xử lý hàng triệu request/ngày, lúc đó tiền API vượt tiền tự host.
Cần fine-tune hoặc chạy model không có trên API công khai.
Latency cực thấp và không muốn phụ thuộc rate limit của bên thứ ba.

💡 Mẹo: Nếu bạn đang làm prototype, demo, hay chatbot lưu lượng vừa phải - đừng thuê GPU. Gọi API DeepSeek (rẻ tới mức gần như miễn phí cho dev) là quyết định đúng 9/10 lần.

VRAM: con số quyết định tất cả

GPU cho LLM không phải đua tốc độ tính toán trước, mà đua dung lượng VRAM. Model phải nằm gọn trong VRAM thì mới chạy nhanh; tràn ra RAM hệ thống là tốc độ rớt thảm. Công thức thô để ước lượng:

VRAM cần (GB) ≈ số tham số (tỷ) × byte/tham số × 1.2 (overhead KV cache)

- FP16 (gốc):     2 byte/tham số
- INT8 (quant):   1 byte/tham số
- INT4 / Q4 (quant): ~0.5 byte/tham số

Quantization (Q4, Q8) là kỹ thuật nén trọng số xuống ít bit hơn, đổi một chút chất lượng lấy việc giảm VRAM mạnh. Với đa số tác vụ, Q4_K_M gần như không phân biệt được với bản FP16. Bảng dưới là số thực tế cho DeepSeek-R1 distill (tháng 5/2026):

Model	VRAM (Q4)	GPU phù hợp	Dùng cho
R1-Distill 7B	~4-5 GB	RTX 3060 / 4060 (8-12GB)	Chatbot nhẹ, tóm tắt, autocomplete
R1-Distill 14B	~9-10 GB	RTX 4070 / 3090 (12-16GB)	Code assistant, RAG vừa
R1-Distill 32B	~18-20 GB	RTX 3090 / 4090 (24GB)	Reasoning chất lượng cao, agent
R1 / V3 full 671B	~376 GB (Q4)	4-8× A100/H100 80GB	Production lớn, nghiên cứu

⚠️ Lưu ý: Bản "DeepSeek-R1" hay "DeepSeek-V3" full là 671B tham số (MoE), ngốn ~376GB VRAM ở Q4 - tức cần nguyên một dàn nhiều H100. Đừng nhầm với các bản distill 7B/14B/32B. 90% người tự host thực ra chạy distill 32B trên một card 24GB, không phải bản full.

Đừng quên KV cache: thủ phạm OOM ẩn

Con số VRAM ở bảng trên là cho trọng số model. Nhưng khi inference, mỗi token trong context còn cần bộ nhớ KV cache, và phần này phình theo độ dài context lẫn số request song song. Một model 7B gọn 5GB có thể đột ngột tràn VRAM khi bạn nhét context 32K token hoặc xử lý 10 request cùng lúc. Quy tắc thực chiến: chừa 15-25% VRAM trống cho KV cache, đừng tính sát nút. Card 24GB chạy model 20GB là vừa đẹp, chạy model 23GB là cầu OOM.

Consumer GPU vs A100/H100: chọn cái nào

Có hai thế giới GPU và giá cách nhau cả chục lần:

Consumer (RTX 4090, 3090)

VRAM 24GB, giá thuê cloud tháng 5/2026 rơi vào khoảng 0.31-0.69 USD/giờ tùy provider (Vast.ai, RunPod). Đủ sức chạy model tới ~32B ở Q4. Đây là sweet spot cho dev tự host: rẻ, nhanh cho model vừa và nhỏ. Hạn chế: không có NVLink để gộp VRAM hiệu quả, ECC kém, và một số provider/datacenter không cho dùng card consumer theo license.

Data-center (A100, H100, L40S)

A100 80GB thuê ~1.07-2.50 USD/giờ, H100 ~1.49-2.50 USD/giờ (spot có thể về ~1 USD). Cần khi model vượt 32B, hoặc chạy nhiều request song song (vLLM batching) cần băng thông VRAM lớn. H100 nhanh hơn A100 ~2-3 lần cho inference nhờ FP8 và băng thông HBM3. Với model 70B+, A100 80GB hoặc L40S 48GB là lựa chọn cân bằng giá/hiệu năng.

GPU	VRAM	Giá thuê (USD/giờ)	Cỡ model tối đa (Q4)
RTX 4090	24 GB	~0.31 - 0.69	~32B
A100	80 GB	~1.07 - 2.50	~70B (1 card), 671B (nhiều card)
H100	80 GB	~1.49 - 2.50	~70B (1 card), 671B (nhiều card)

Chi phí thật: tự host có rẻ hơn API không?

Đây là phần anh em hay tính sai. Lấy ví dụ thuê RTX 4090 ở 0.50 USD/giờ chạy 24/7:

0.50 USD/giờ × 24 × 30 = 360 USD/tháng (~9.2 triệu VND)

So với DeepSeek API: v4-flash chỉ 0.14 USD/triệu token input, 0.28 USD/triệu token output. Với 9.2 triệu VND đó, bạn mua được khoảng 360 / 0.28 ≈ 1.28 tỷ token output từ API. Để tự host "hòa vốn" với GPU thuê 24/7, bạn phải xử lý lưu lượng cực lớn và liên tục - hầu hết dự án cá nhân không bao giờ chạm tới ngưỡng đó.

💡 Mẹo: Tự host chỉ thắng về chi phí khi GPU của bạn chạy full tải gần 24/7. Nếu GPU đứng không quá nửa thời gian, API gần như luôn rẻ hơn. Tự host thắng về quyền riêng tư và kiểm soát, không phải về giá.

Benchmark thực tế: tokens/giây kỳ vọng

Để khỏi vẽ vời, đây là khoảng tốc độ sinh token (single request, Q4) mà anh em hay gặp trên từng cấu hình. Con số dao động theo context length và backend (vLLM thường nhanh hơn Ollama nhờ batching), nhưng đủ để bạn ước lượng trải nghiệm:

Cấu hình	Model	Tốc độ (token/giây)	Cảm giác
CPU VPS 8 core	7B Q4	~3-8	Chậm, hợp batch/nền
RTX 4090	14B Q4	~50-80	Mượt như chat real-time
RTX 4090	32B Q4	~25-40	Đọc kịp, dùng được
A100 80GB	70B Q4	~20-35	Tốt cho model lớn
H100 80GB	70B Q4	~40-60	Nhanh nhất phân khúc đơn card

Để dễ hình dung: người đọc trung bình "tiêu thụ" khoảng 5-7 token/giây. Nên bất cứ cấu hình nào trên ~10 token/giây đã cho cảm giác trả lời "ngay lập tức". Đó là lý do CPU VPS chạy 7B vẫn ổn cho tác vụ không cần real-time, và bạn không phải vội mua GPU đắt.

Inference nhẹ trên CPU VPS: hoàn toàn khả thi

Nhiều anh em không biết: model 7B quantized chạy được trên CPU VPS thường bằng llama.cpp, không cần GPU. Tốc độ tất nhiên chậm hơn (vài token/giây thay vì vài chục), nhưng cho các tác vụ batch không cần real-time - tóm tắt log, phân loại text, sinh nội dung nền - là quá đủ và rẻ hơn nhiều.

# Cài llama.cpp và chạy model GGUF Q4 trên CPU
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build && cmake --build build -j

# Tải model GGUF (ví dụ Qwen distill 7B Q4) từ Hugging Face
./build/bin/llama-cli \
  -m models/deepseek-r1-distill-qwen-7b-Q4_K_M.gguf \
  -p "Tóm tắt đoạn log sau:" \
  -n 256 --threads 4

Một con TND Cloud VPS với 8 vCPU / 8GB RAM thừa sức chạy 7B Q4 cho workload batch. Nếu cần RAM nhiều hơn cho model 14B, lên gói cao hơn. Với người vừa học self-host, đây là cách rẻ nhất để nghịch mà không phải trả tiền GPU.

Gói TND Cloud VPS SSD	Cấu hình	Giá/tháng	Hợp với
VPS 50	4 vCPU / 4GB	639.000đ	Gọi API, agent nhẹ, dev/test
VPS 160	8 vCPU / 8GB / 160GB	1.790.000đ	llama.cpp 7B Q4, RAG, automation
VPS 320	12 vCPU / 12GB / 320GB	2.790.000đ	Inference CPU 14B, nhiều service song song

Tất cả dùng ổ Ceph SSD NVMe nên load model GGUF (vài GB) vào RAM cũng nhanh. Nếu bạn mới bắt đầu hành trình tự host LLM, đọc thêm bài tổng hợp VPS cho vibe coder để chọn cấu hình phù hợp với workflow AI của mình.

vLLM hay Ollama cho production?

Khi đã có GPU, chọn engine cũng quan trọng. Ollama dễ cài nhất, một lệnh là chạy, hợp để nghịch và phục vụ một vài người dùng. vLLM phức tạp hơn nhưng có continuous batching - gộp nhiều request vào một lần forward, đẩy throughput lên nhiều lần khi tải cao. Nguyên tắc: đang học hay tải thấp dùng Ollama; lên production nhiều request đồng thời dùng vLLM hoặc TGI để tận dụng GPU hết công suất, tránh tình trạng card mạnh mà phục vụ được ít người.

Tóm gọn quyết định

Chỉ gọi API (DeepSeek, Gemini) -> CPU VPS gói nhỏ là đủ, không cần GPU.
Inference batch model 7B-14B -> CPU VPS + llama.cpp Q4, tiết kiệm nhất.
Inference real-time 14B-32B -> RTX 3090/4090 24GB.
Model 70B+ hoặc production lớn -> A100/H100 80GB, nhiều card cho bản 671B.
Cần riêng tư data -> tự host bất kể chi phí, vì API gửi data ra ngoài.

⚠️ Lưu ý: TND Cloud hiện chưa bán VPS GPU (dòng GPU sắp ra mắt). Nếu bạn cần tư vấn cấu hình GPU cho dự án LLM cụ thể - cỡ model, ngân sách, throughput - hãy nhắn cho team để được tư vấn đúng nhu cầu, tránh mua thừa hoặc thiếu.

Cần tư vấn cấu hình GPU cho dự án LLM?

Dòng GPU VPS của TND sắp ra mắt. Trong lúc chờ, nếu bạn cần inference nhẹ ngay hôm nay, TND Cloud VPS SSD (Ceph NVMe) chạy llama.cpp model 7B-14B mượt mà.

Xem bảng giá VPS SSD Vietnam »

Cần tư vấn riêng về GPU? Nhắn Messenger để tư vấn GPU »

Cloud VPS Việt Nam

VPS Fresh IP Việt Nam

Cloud VPS US

VPS Fresh IP US

Thuê VPS GPU chạy DeepSeek / LLM local: chi phí thật + benchmark

Khi nào bạn THỰC SỰ cần GPU (và khi nào không)

VRAM: con số quyết định tất cả

Đừng quên KV cache: thủ phạm OOM ẩn

Consumer GPU vs A100/H100: chọn cái nào

Consumer (RTX 4090, 3090)

Data-center (A100, H100, L40S)

Chi phí thật: tự host có rẻ hơn API không?

Benchmark thực tế: tokens/giây kỳ vọng

Inference nhẹ trên CPU VPS: hoàn toàn khả thi

vLLM hay Ollama cho production?

Tóm gọn quyết định

Cần tư vấn cấu hình GPU cho dự án LLM?

Có thể bạn quan tâm

Windows Server External Connector: dùng cho web app public

Windows Server 2022/2025 Essentials: 25 user max - hạn chế sử dụng khi nào?

Windows Server Datacenter unlimited VM: khi nào worth pay vs Standard?

Cloud VPS Việt Nam

VPS Fresh IP Việt Nam

Cloud VPS US

VPS Fresh IP US

Thuê VPS GPU chạy DeepSeek / LLM local: chi phí thật + benchmark

Khi nào bạn THỰC SỰ cần GPU (và khi nào không)

VRAM: con số quyết định tất cả

Đừng quên KV cache: thủ phạm OOM ẩn

Consumer GPU vs A100/H100: chọn cái nào

Consumer (RTX 4090, 3090)

Data-center (A100, H100, L40S)

Chi phí thật: tự host có rẻ hơn API không?

Benchmark thực tế: tokens/giây kỳ vọng

Inference nhẹ trên CPU VPS: hoàn toàn khả thi

vLLM hay Ollama cho production?

Tóm gọn quyết định

Bài viết liên quan

Cần tư vấn cấu hình GPU cho dự án LLM?

Có thể bạn quan tâm

Windows Server External Connector: dùng cho web app public

Windows Server 2022/2025 Essentials: 25 user max - hạn chế sử dụng khi nào?

Windows Server Datacenter unlimited VM: khi nào worth pay vs Standard?