OpenClaw + LLM backend: chọn Claude Sonnet, Gemini, GPT hay DeepSeek?

Chia sẻ bài viết

Minh hoạ so sánh LLM backend cho OpenClaw

OpenClaw không khóa bạn vào một LLM provider nào. Bạn dùng Claude hôm nay, mai swap sang Gemini hay DeepSeek chỉ bằng vài dòng config. Nhưng provider nào hợp cho personal assistant chạy chat + tool-use + long context? Bài này so sánh thực dụng Claude / Gemini / GPT / DeepSeek cho use case OpenClaw, kèm config snippet swap nhanh và lời khuyên hedging vì giá thay đổi liên tục.

Bốn provider chính OpenClaw dùng được

OpenClaw reference model theo format provider/model, ví dụ anthropic/claude-sonnet-4-5 hay google/gemini-2.5-pro. Built-in providers (chỉ cần API key trong env hoặc onboard wizard):

anthropic: Claude Sonnet, Opus, Haiku
openai: GPT-5, GPT-4o, o1, o3
google: Gemini 2.5 Pro, Flash
openrouter: gateway tới gần 200 model (gồm DeepSeek, Llama, Qwen, Mistral)
ollama / lmstudio: model local (Llama 3.3, Qwen 2.5, DeepSeek V3 distill)

Custom provider (DeepSeek trực tiếp, Together AI, Fireworks...) khai trong models.providers với OpenAI-compatible baseUrl.

So sánh 4 ứng viên cho personal assistant

Giá tham khảo tháng 5/2026 (input/output USD per 1M token). Giá biến động liên tục, luôn check trang official trước khi commit budget.

Model	Input	Output	Context	Tool-use
Claude Sonnet 4.5	~$3.00	~$15.00	200k	Xuất sắc
Claude Haiku 4	~$1.00	~$5.00	200k	Tốt
GPT-5 (tier chính)	~$1.25	~$10.00	400k	Tốt
GPT-5 mini	~$0.25	~$2.00	400k	Khá
Gemini 2.5 Pro	~$1.25	~$10.00	2M	Tốt
Gemini 2.5 Flash	~$0.30	~$2.50	1M	Khá
DeepSeek V3	~$0.27	~$1.10	128k	Khá
DeepSeek R1 (reasoning)	~$0.55	~$2.20	64k	Khá

⚠️ Lưu ý: Giá trên là snapshot tháng 5/2026 từ search và doc public, có thể đã thay đổi khi bạn đọc bài này. Trước khi swap production, mở thẳng platform.claude.com/docs, openai.com/api/pricing, ai.google.dev/pricing, api-docs.deepseek.com để verify.

Đánh giá thực dụng cho personal assistant

Chat thường ngày (tin nhắn ngắn, nhanh)

Personal assistant 80% thời gian là chat ngắn: hỏi-đáp, nhắc nhở, summarize tin. Không cần model lớn, cần model rẻ và nhanh.

Winner: gemini-2.5-flash hoặc gpt-5-mini hoặc deepseek-chat. Cả ba cost <$3 output per 1M, latency 1-2s từ VN. Cho dialogue chat đời thường, khác biệt chất lượng <5%.

Tool-use (gọi skill, browser, calendar)

Khi OpenClaw cần agent gọi 3-5 tool liên tiếp ("đọc calendar -> tìm slot rảnh -> tạo event -> gửi xác nhận"), model phải reasoning vững và parse JSON tool-call chuẩn.

Winner: Claude Sonnet. Anthropic train tool-use kỹ nhất, ít fail JSON, ít hallucinate tool name. Đáng giá premium. GPT-5 ngang ngửa, Gemini kém hơn một bậc về độ stable. DeepSeek đôi khi quên đóng JSON.

Long context (đọc PDF, codebase, chat history)

Skill document-qa nuốt PDF 500 trang, hoặc agent recall 6 tháng chat history - cần context window lớn.

Winner: Gemini 2.5 Pro với 2M token context, không đối thủ. Claude và GPT cap 200-400k. DeepSeek 128k. Nếu workload bạn nặng long-context, Gemini là duy nhất.

Tiếng Việt

Cả 4 provider đều handle tiếng Việt ổn cho chat thông thường. Nhưng:

Claude: tiếng Việt tự nhiên nhất, ít sai dấu, ít văn phong tây hóa.
Gemini: tiếng Việt tốt, đôi lúc dùng từ Hán-Việt nặng nề.
GPT: ổn nhưng hay "anh/chị thân mến" cringe nếu không prompt persona.
DeepSeek: hiểu ý đúng, nhưng văn phong chưa mượt bằng 3 cái còn lại, đôi khi lẫn Trung-Việt.

Voice mode (transcribe + TTS)

OpenClaw voice tách thành 3 layer: STT (speech-to-text), LLM, TTS. LLM ở giữa không quan trọng lắm (chỉ chat), nhưng STT/TTS thì khác:

STT: OpenAI Whisper hoặc Gemini Audio đều nhận tiếng Việt tốt.
TTS: OpenAI tts-1 giọng Việt còn machine, ElevenLabs tự nhiên hơn nhiều nhưng đắt.

Combo provider hợp lý nhất

Một personal assistant ngon thường không dùng 1 model duy nhất. OpenClaw support fallback và routing theo task. Combo tôi xài:

{
  "model": {
    "default": "anthropic/claude-sonnet-4-5",
    "fallback": ["google/gemini-2.5-pro", "openai/gpt-5"],
    "routing": {
      "shortChat":     "google/gemini-2.5-flash",
      "toolUse":       "anthropic/claude-sonnet-4-5",
      "longContext":   "google/gemini-2.5-pro",
      "codeGeneration":"anthropic/claude-sonnet-4-5",
      "summarize":     "deepseek/deepseek-chat"
    }
  }
}

Logic: chat thường (80% volume) đi Gemini Flash hoặc DeepSeek - cost dưới $1/triệu token output. Tool-use đi Claude Sonnet - đắt nhưng accuracy cao tránh fail loop. Long context đi Gemini Pro - không có lựa chọn khác.

Config swap provider nhanh

Anthropic Claude

# Set API key
openclaw secrets set anthropic.apiKey
# hoặc env
export ANTHROPIC_API_KEY=sk-ant-...

{
  "model": { "default": "anthropic/claude-sonnet-4-5" }
}

OpenAI GPT

openclaw secrets set openai.apiKey
# OPENAI_API_KEY=sk-...

{
  "model": { "default": "openai/gpt-5" }
}

Google Gemini

openclaw secrets set google.apiKey
# GOOGLE_API_KEY=AIza...

{
  "model": { "default": "google/gemini-2.5-pro" }
}

DeepSeek (custom provider, OpenAI-compatible)

{
  "models": {
    "providers": {
      "deepseek": {
        "type": "openai-compatible",
        "baseUrl": "https://api.deepseek.com/v1",
        "apiKeyEnv": "DEEPSEEK_API_KEY",
        "models": ["deepseek-chat", "deepseek-reasoner"]
      }
    }
  },
  "model": { "default": "deepseek/deepseek-chat" }
}

OpenRouter (gateway tất cả)

{
  "models": {
    "providers": {
      "openrouter": {
        "type": "openai-compatible",
        "baseUrl": "https://openrouter.ai/api/v1",
        "apiKeyEnv": "OPENROUTER_API_KEY"
      }
    }
  },
  "model": { "default": "openrouter/anthropic/claude-sonnet-4.5" }
}

Ưu điểm OpenRouter: 1 key dùng được mọi model, tự fallback khi 1 provider down, có cache prompt giảm cost. Nhược điểm: thêm 1 hop latency 50-100ms, markup nhẹ trên giá gốc.

Verify model thực sự dùng

Sau khi swap, đừng tin config. Verify thật:

openclaw model status
# Default: anthropic/claude-sonnet-4-5
# Last 10 calls: claude-sonnet-4-5 (8), gemini-2.5-flash (2)
# Total tokens today: 142,500 in / 38,200 out
# Estimated cost: $0.45

💡 Mẹo: Bật openclaw telemetry costs để gateway log cost từng call. Sau 1 tuần bạn biết chính xác mỗi provider tốn bao nhiêu - data thật, không đoán.

Local model qua Ollama - đáng không?

Một số bài blog rao "chạy LLM local với OpenClaw 0 đồng". Thực tế:

Model 7B-13B (Llama 3.1 8B, Qwen 2.5 7B): chạy được trên VPS 16GB RAM, nhưng chậm (5-15 token/s), chất lượng kém Sonnet/Gemini Pro rõ rệt cho tool-use.
Model 30B+: cần GPU hoặc >64GB RAM, không khả thi trên VPS thường.
DeepSeek V3 distill, Qwen 2.5 72B: chạy local cần GPU server, không phải VPS 6GB.

Khuyến nghị: KHÔNG dùng local model trên VPS <16GB cho production. Dùng cloud API (DeepSeek rẻ $0.27/$1.10 đã là gần như free) hoặc Ollama trên máy mình ở nhà nếu có GPU 12GB+ VRAM.

Budget estimate cho personal use

Một user "active" gửi 100 message/ngày, mỗi message trung bình 500 token in + 300 token out, kèm 30 tool-call (mỗi cái thêm 2k token in/out):

Provider	Token/tháng	Cost/tháng (USD)
Claude Sonnet only	~15M in / 5M out	~$120
Routing combo (Gemini Flash + Claude tool-use)	same	~$25-40
DeepSeek only	same	~$10
Gemini Flash only	same	~$15

Routing combo tiết kiệm 60-70% so với all-Claude mà vẫn giữ quality cao cho tool-use. Đây là sweet spot thực dụng.

VPS sizing cho gateway

OpenClaw gateway không chạy LLM (cloud API lo), nên VPS chỉ cần đủ cho Node, ffmpeg, embeddings local, browser skill.

VPS 50 (4GB): đủ cho single user, 1-2 channel, routing combo.
VPS 80 (6GB): cho multi-channel + voice + browser skill.
Cao hơn nữa nếu bạn tự host vector DB (Qdrant, Weaviate) cho memory dài hạn.

Gotchas khi swap provider

Tool-call schema khác nhau: Claude trả tool_use block, OpenAI trả function_call. OpenClaw normalize, nhưng skill output đôi khi behave khác - test lại tất cả skill sau swap.
Stop token / safety filter: Gemini có safety filter tự reject prompt nhạy cảm (đôi khi false-positive với tiếng Việt). Claude/GPT thoáng hơn. DeepSeek có content filter của TQ.
Streaming: tất cả support, nhưng chunk size khác - voice mode TTS có thể glitch khi đổi provider, test voice riêng.
Rate limit: OpenAI tier 1 (mới signup) chỉ 500 req/phút - dễ hit nếu user spam. Upgrade tier sớm.
Pricing thay đổi: giá trong bài này có thể stale ngay tuần sau. Set alert trên blog provider, mỗi quý review lại routing config.

Prompt caching - thường bị quên

Cả Claude, Gemini và OpenAI đều có prompt caching: phần system prompt + skill descriptions không đổi giữa các request được cache, lần sau chỉ tính 10% giá input.

Personal assistant có system prompt dài (persona + 20 skill descriptions = 8-15k token), gửi lại mỗi lần message rất tốn. Bật caching:

{
  "model": {
    "default": "anthropic/claude-sonnet-4-5",
    "caching": {
      "enabled": true,
      "minPrefixTokens": 1024,
      "ttl": "5m"
    }
  }
}

OpenClaw tự đánh dấu cache_control cho phần prefix ổn định (system prompt, skill list). Sau request đầu, các request tiếp trong 5 phút chỉ tính ~10% input cost cho phần cache hit. Saving thực tế 30-50% cost theo measure của tôi sau 1 tháng.

Region / latency considerations

Latency từ VPS VN tới các provider (đo tháng 5/2026, có thể đổi):

Provider	Endpoint chính	Latency VN
Anthropic	api.anthropic.com (US)	180-220ms
OpenAI	api.openai.com (US/EU)	200-250ms
Google Gemini	generativelanguage.googleapis.com (multi-region)	50-90ms (Singapore)
DeepSeek	api.deepseek.com (CN)	80-150ms (varies)

Gemini có edge gần VN nhất - lợi cho real-time voice. DeepSeek ổn nhưng đôi khi route qua TQ bị thắt cổ chai. Claude/OpenAI route US ổn nhưng RTT cao - voice mode hơi cảm giác lag.

Privacy và data residency

Một số khách hàng VN nhạy cảm chuyện data leave VN. Tùy provider:

Anthropic / OpenAI: data đi US, có ZDR (Zero Data Retention) tier cho enterprise, không train trên data.
Google Gemini: free tier có thể train, paid tier opt-out được. Region routing chọn được Asia.
DeepSeek: data đi server TQ - không phù hợp khách có compliance EU/US.
Local Ollama: data không rời VPS - nhưng chất lượng kém như phần trên.

Nếu client yêu cầu hard "không data ra ngoài VN", lựa chọn thật là local model trên GPU server VN - đắt và chậm hơn nhiều so với cloud.

Tóm lại

Cho OpenClaw personal assistant, không có provider "đúng" cho mọi task. Combo tốt nhất hiện tại: Claude Sonnet cho tool-use, Gemini Flash cho chat ngắn, Gemini Pro cho long-context, DeepSeek cho task ít rủi ro. Routing config OpenClaw cho phép trộn đẹp, giảm cost 60-70%.

Luôn verify giá tại trang official trước khi commit production budget. Giá tháng này có thể không còn đúng tháng sau - DeepSeek đã giảm giá 2 lần trong năm 2025-2026, Claude thì ổn định hơn.

Nếu bạn đang lên kế hoạch self-host OpenClaw, đọc bài tổng OpenClaw cho phần cài đặt. Stack đầy đủ cho dev VN tham khảo VPS cho vibe-coder.

VPS gateway OpenClaw - chạy ổn định mọi LLM provider

TND Cloud VPS Ceph SSD Enterprise NVMe, RAM ECC, khởi tạo 60 giây. Gói 4GB RAM 639k/tháng cho single user; gói 6GB RAM 999k/tháng cho multi-channel + voice + browser.

Xem bảng giá VPS

Cloud VPS Việt Nam

VPS Fresh IP Việt Nam

Cloud VPS US

VPS Fresh IP US

OpenClaw + LLM backend: chọn Claude Sonnet, Gemini, GPT hay DeepSeek?

Bốn provider chính OpenClaw dùng được

So sánh 4 ứng viên cho personal assistant

Đánh giá thực dụng cho personal assistant

Chat thường ngày (tin nhắn ngắn, nhanh)

Tool-use (gọi skill, browser, calendar)

Long context (đọc PDF, codebase, chat history)

Tiếng Việt

Voice mode (transcribe + TTS)

Combo provider hợp lý nhất

Config swap provider nhanh

Anthropic Claude

OpenAI GPT

Google Gemini

DeepSeek (custom provider, OpenAI-compatible)

OpenRouter (gateway tất cả)

Verify model thực sự dùng

Local model qua Ollama - đáng không?

Budget estimate cho personal use

VPS sizing cho gateway

Gotchas khi swap provider

Prompt caching - thường bị quên

Region / latency considerations

Privacy và data residency

Tóm lại

VPS gateway OpenClaw - chạy ổn định mọi LLM provider

Có thể bạn quan tâm

vSAN vs Traditional SAN Storage: hyper-converged nên chọn?

vCenter có cần thiết không? Quản lý tập trung 1-2 host cơ bản

Migrate từ VMware sang Proxmox 2026

Cloud VPS Việt Nam

VPS Fresh IP Việt Nam

Cloud VPS US

VPS Fresh IP US

OpenClaw + LLM backend: chọn Claude Sonnet, Gemini, GPT hay DeepSeek?

Bốn provider chính OpenClaw dùng được

So sánh 4 ứng viên cho personal assistant

Đánh giá thực dụng cho personal assistant

Chat thường ngày (tin nhắn ngắn, nhanh)

Tool-use (gọi skill, browser, calendar)

Long context (đọc PDF, codebase, chat history)

Tiếng Việt

Voice mode (transcribe + TTS)

Combo provider hợp lý nhất

Config swap provider nhanh

Anthropic Claude

OpenAI GPT

Google Gemini

DeepSeek (custom provider, OpenAI-compatible)

OpenRouter (gateway tất cả)

Verify model thực sự dùng

Local model qua Ollama - đáng không?

Budget estimate cho personal use

VPS sizing cho gateway

Gotchas khi swap provider

Prompt caching - thường bị quên

Region / latency considerations

Privacy và data residency

Tóm lại

Bài viết liên quan

VPS gateway OpenClaw - chạy ổn định mọi LLM provider

Có thể bạn quan tâm

vSAN vs Traditional SAN Storage: hyper-converged nên chọn?

vCenter có cần thiết không? Quản lý tập trung 1-2 host cơ bản

Migrate từ VMware sang Proxmox 2026