DeepSeek API vs self-host: khi nào nên thuê GPU, khi nào dùng API

Chia sẻ bài viết

Minh hoạ DeepSeek API vs self-host quyết định thuê GPU

"DeepSeek API hay tự host trên GPU?" - câu này quyết định cả kiến trúc lẫn ngân sách dự án của bạn. Chọn sai một lần là hoặc đốt tiền GPU mỗi tháng cho thứ API làm được với vài chục nghìn, hoặc đẩy data nhạy cảm ra server bên thứ ba mà không nhận ra. Bài này là framework ra quyết định, có cả con số breakeven thật và ví dụ gọi API chạy được ngay.

Hiểu nhanh DeepSeek: API rẻ + open weights

DeepSeek là LLM của công ty Trung Quốc, đặc biệt ở chỗ vừa có API cực rẻ vừa mở trọng số (open weights) để bạn tự tải về chạy. Đây là điểm khác biệt lớn so với OpenAI hay Anthropic - bạn không bị khóa cứng vào một nhà cung cấp.

Tháng 5/2026, model API hiện hành là deepseek-v4-flash (nhanh, rẻ) và deepseek-v4-pro (reasoning mạnh). Hai tên cũ deepseek-chat và deepseek-reasoner vẫn dùng được nhưng sẽ ngừng hỗ trợ ngày 24/07/2026 - nên dự án mới nên dùng thẳng tên v4.

Model	Input cache miss	Input cache hit	Output	Context
deepseek-v4-flash	$0.14 / 1M	$0.0028 / 1M	$0.28 / 1M	1M token
deepseek-v4-pro	$1.74 / 1M*	$0.0145 / 1M*	$3.48 / 1M*	1M token

💡 Mẹo: Giá cache hit chỉ bằng 1/50 cache miss. Nếu prompt của bạn có phần đầu cố định (system prompt, tài liệu RAG lặp lại), DeepSeek cache tự động và bạn trả gần như miễn phí cho phần lặp. Đặt nội dung tĩnh lên đầu prompt để tận dụng.

*v4-pro đang giảm 75% khuyến mãi tới 31/05/2026; con số trên là giá ổn định sau khuyến mãi. Trong thời gian khuyến mãi giá còn rẻ hơn nữa - kiểm tra trang giá chính thức trước khi tính toán.

Gọi API DeepSeek: ví dụ chạy được ngay

API DeepSeek tương thích định dạng OpenAI, nên code cũ gọi OpenAI chỉ cần đổi base_url và key. Đây là curl thuần:

curl https://api.deepseek.com/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \
  -d '{
    "model": "deepseek-v4-flash",
    "messages": [
      {"role": "system", "content": "Bạn là trợ lý code ngắn gọn."},
      {"role": "user", "content": "Viết hàm Python kiểm tra số nguyên tố."}
    ],
    "stream": false
  }'

Hoặc gọi bằng Python với chính SDK của OpenAI (không cần thư viện riêng):

from openai import OpenAI

client = OpenAI(
    api_key="DEEPSEEK_API_KEY",
    base_url="https://api.deepseek.com"
)

resp = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[
        {"role": "user", "content": "Giải thích ngắn gọn MoE là gì."}
    ],
)
print(resp.choices[0].message.content)

⚠️ Lưu ý: Đừng hardcode API key vào source rồi push lên Git. Dùng biến môi trường (os.environ["DEEPSEEK_API_KEY"]) hoặc file .env có trong .gitignore. Key lộ là người ta đốt quota của bạn trong vài phút.

Streaming và thinking mode

Hai thứ anh em hay cần. Streaming (đặt "stream": true) cho token chảy về dần thay vì chờ cả câu - trải nghiệm chat mượt hơn hẳn, nên bật cho mọi UI có người ngồi đợi. Thinking mode là chế độ model suy luận từng bước trước khi trả lời, chính xác hơn cho toán/logic/code khó nhưng tốn token và chậm hơn. Với v4, thinking mode bật qua tham số cấu hình; dùng cho câu khó, tắt cho câu đơn giản để tiết kiệm. Đừng bật thinking cho mọi request - bạn trả tiền cho cả phần "suy nghĩ" mà câu dễ không cần.

💡 Mẹo: DeepSeek còn có endpoint định dạng Anthropic tại https://api.deepseek.com/anthropic. Nếu code bạn đang dùng SDK Anthropic (Claude), chỉ cần đổi base_url là chạy DeepSeek mà gần như không sửa code - tiện để A/B test giá và chất lượng giữa các nhà cung cấp.

Self-host: được gì, mất gì

Vì DeepSeek mở trọng số, bạn tải bản distill (7B/14B/32B) hoặc bản full 671B từ Hugging Face về chạy bằng vLLM, Ollama hay TGI. Đổi lại:

Tiêu chí	DeepSeek API	Self-host GPU
Chi phí khởi đầu	0đ, trả theo token	Thuê/mua GPU ngay từ đầu
Quyền riêng tư data	Data gửi ra server DeepSeek	Data ở lại hạ tầng của bạn
Rate limit	Có giới hạn theo tier	Không, bạn làm chủ
Quản lý hạ tầng	Không cần lo gì	Tự lo GPU, driver, scaling, downtime
Chất lượng model	Bản full mạnh nhất	Distill yếu hơn full; full cần dàn GPU lớn
Tốc độ triển khai	5 phút có key là chạy	Setup vài giờ tới vài ngày

Phân tích breakeven: con số thật

Đây là phép tính ai cũng nên làm trước khi quyết. Giả sử bạn thuê một RTX 4090 (24GB) ở 0.50 USD/giờ chạy 24/7 để host DeepSeek-R1 distill 32B:

Chi phí GPU tự host: 0.50 × 24 × 30 = 360 USD/tháng

Cùng 360 USD trên API v4-flash:
  360 / 0.28 USD per 1M output = ~1.28 tỷ token output/tháng
  (chưa kể token input còn rẻ hơn nữa)

Tức để tự host "hòa vốn", bạn phải sinh hơn 1.28 tỷ token output mỗi tháng, đều đặn, GPU chạy gần full tải. Quy ra: khoảng 1.7 triệu câu trả lời dài ~750 token mỗi tháng, tức ~58.000 câu/ngày. Nếu dự án bạn chưa chạm tới quy mô đó, API rẻ hơn rõ rệt.

💡 Mẹo: GPU thuê tính tiền cả lúc nó đứng không. Nếu workload của bạn lên đỉnh ban ngày, ban đêm ngủ, thì 360 USD/tháng đó phần lớn là tiền GPU "ngồi chơi". API chỉ tính khi có request - đó là lý do API thắng cho hầu hết dự án không phải full tải liên tục.

Những chi phí ẩn của self-host người ta hay quên

Bảng breakeven trên mới chỉ tính tiền thuê GPU. Self-host còn gánh thêm các khoản vô hình mà nhiều người tính sót, khiến chi phí thật cao hơn con số 360 USD:

Thời gian DevOps: cài driver CUDA, vá lỗi OOM, dựng monitoring, xử lý lúc 2h sáng GPU treo. Thời gian của bạn cũng là tiền.
Downtime: API có SLA của nhà cung cấp; tự host thì server chết là dịch vụ chết, bạn tự chịu.
Cập nhật model: DeepSeek ra bản mới, API tự nâng; tự host phải tải lại trọng số mới, test lại, deploy lại.
Scaling đột biến: lưu lượng tăng gấp 5 vào giờ cao điểm, API co giãn tự động; tự host phải có sẵn GPU dư hoặc chịu nghẽn.

Cộng hết vào, "rẻ hơn" của self-host thường teo lại đáng kể. Đây là lý do nhiều startup chọn API tới khi quy mô đủ lớn rồi mới cân nhắc tự host phần lõi.

Framework ra quyết định

Trả lời 4 câu hỏi này theo thứ tự, gặp "đúng" đầu tiên thì dừng:

Data có buộc phải ở lại nội bộ không? (luật, hợp đồng, bí mật) -> Có thì self-host, hết bàn.
Bạn có sinh hơn ~1 tỷ token/tháng đều đặn không? -> Có thì cân nhắc self-host vì breakeven nghiêng về bạn.
Bạn cần fine-tune hoặc model không có trên API? -> Có thì self-host.
Còn lại tất cả -> Dùng API. Nhanh, rẻ, không phải nuôi hạ tầng.

Bảo mật và tuân thủ: yếu tố ngoài giá tiền

Tiền không phải lý do duy nhất khiến nhiều team chọn self-host. Khi gọi API, prompt và dữ liệu của bạn rời khỏi hạ tầng và đi qua server của nhà cung cấp. Với dự án cá nhân thì không sao, nhưng với doanh nghiệp xử lý dữ liệu khách hàng, hồ sơ y tế, hay tài liệu nội bộ, đây là vấn đề tuân thủ thật sự.

Vị trí lưu trữ data: một số quy định yêu cầu dữ liệu công dân không được rời khỏi lãnh thổ. Self-host trên VPS đặt tại Việt Nam giải quyết được; gọi API ra server nước ngoài thì khó kiểm soát.
Audit log: tự host bạn nắm toàn bộ log ai gọi gì, lúc nào - cần cho kiểm toán nội bộ.
Không bị dùng để train: với model tự host, dữ liệu chắc chắn không vào tập huấn luyện của ai cả.

Nếu dự án bạn rơi vào nhóm này, breakeven không còn quan trọng - quyết định nằm ở chỗ data buộc phải ở trong tầm kiểm soát. Lúc đó bài toán chuyển thành "self-host bằng cấu hình nào cho tiết kiệm", chứ không phải "API hay self-host".

Kiến trúc lai: tốt nhất của cả hai

Thực tế nhiều team chạy hybrid: dùng API cho phần lớn lưu lượng, chỉ self-host phần data nhạy cảm. Hoặc dùng model distill nhỏ tự host cho tác vụ đơn giản (phân loại, tóm tắt) và đẩy câu khó lên API v4-pro. Cách này tối ưu cả chi phí lẫn riêng tư.

Nếu bạn chọn self-host phần nhẹ, một con TND Cloud VPS CPU đủ chạy distill 7B Q4 bằng llama.cpp cho các tác vụ batch, không cần GPU. Còn nếu chỉ gọi API, gói VPS 50 (4 vCPU/4GB, 639k/tháng) là quá đủ để host con agent gọi DeepSeek. Anh em mới làm AI trên VPS nên đọc thêm VPS cho vibe coder để dựng nền tảng đúng từ đầu.

Gói TND Cloud VPS SSD	Cấu hình	Giá/tháng	Vai trò trong stack AI
VPS 50	4 vCPU / 4GB	639.000đ	Host agent gọi DeepSeek API, cron job
VPS 160	8 vCPU / 8GB / 160GB	1.790.000đ	llama.cpp 7B + API hybrid, RAG vector DB
VPS 320	12 vCPU / 12GB / 320GB	2.790.000đ	Nhiều service AI song song, queue worker

⚠️ Lưu ý: Self-host bản DeepSeek full 671B cần ~376GB VRAM (Q4) - tức nhiều card A100/H100, không phải một VPS thường. Đa số trường hợp "self-host DeepSeek" thực ra là chạy bản distill 7B-32B. Cần tư vấn cấu hình GPU cho bản full hay reasoning nặng, nhắn team để chọn đúng.

Dựng stack AI gọi DeepSeek API trên VPS Việt Nam

Chỉ gọi API thì không cần GPU. TND Cloud VPS SSD (Ceph NVMe, ping nội địa thấp) chạy agent DeepSeek/Gemini mượt từ gói 639k/tháng.

Xem bảng giá VPS SSD Vietnam »

Cần tư vấn GPU để self-host model lớn? Nhắn Messenger tư vấn GPU »

Cloud VPS Việt Nam

VPS Fresh IP Việt Nam

Cloud VPS US

VPS Fresh IP US

DeepSeek API vs self-host: khi nào nên thuê GPU, khi nào dùng API

Hiểu nhanh DeepSeek: API rẻ + open weights

Gọi API DeepSeek: ví dụ chạy được ngay

Streaming và thinking mode

Self-host: được gì, mất gì

Phân tích breakeven: con số thật

Những chi phí ẩn của self-host người ta hay quên

Framework ra quyết định

Bảo mật và tuân thủ: yếu tố ngoài giá tiền

Kiến trúc lai: tốt nhất của cả hai

Dựng stack AI gọi DeepSeek API trên VPS Việt Nam

Có thể bạn quan tâm

Windows Server External Connector: dùng cho web app public

Windows Server 2022/2025 Essentials: 25 user max - hạn chế sử dụng khi nào?

Windows Server Datacenter unlimited VM: khi nào worth pay vs Standard?

Cloud VPS Việt Nam

VPS Fresh IP Việt Nam

Cloud VPS US

VPS Fresh IP US

DeepSeek API vs self-host: khi nào nên thuê GPU, khi nào dùng API

Hiểu nhanh DeepSeek: API rẻ + open weights

Gọi API DeepSeek: ví dụ chạy được ngay

Streaming và thinking mode

Self-host: được gì, mất gì

Phân tích breakeven: con số thật

Những chi phí ẩn của self-host người ta hay quên

Framework ra quyết định

Bảo mật và tuân thủ: yếu tố ngoài giá tiền

Kiến trúc lai: tốt nhất của cả hai

Bài viết liên quan

Dựng stack AI gọi DeepSeek API trên VPS Việt Nam

Có thể bạn quan tâm

Windows Server External Connector: dùng cho web app public

Windows Server 2022/2025 Essentials: 25 user max - hạn chế sử dụng khi nào?

Windows Server Datacenter unlimited VM: khi nào worth pay vs Standard?