
Hermes Agent là model-agnostic: bạn có thể swap LLM backend giữa Claude, GPT, Gemini, DeepSeek chỉ bằng vài dòng config. Câu hỏi thực sự là: khi nào chọn model nào? Bài này so sánh trên 4 trục - tool-calling accuracy, long-context, chi phí, latency - dựa trên test trực tiếp + giá cập nhật Q2 2026.
Tại sao chọn đúng LLM cho agent quan trọng hơn chọn LLM cho chat
Khi chat, một model tốt và một model trung bình cho output khác biệt ở mức "đọc thấy ngon hơn 20%". Khi agent, khác biệt là task hoàn thành vs task fail. Lý do:
- Agent gọi tool nhiều lần (5-50 lần/task). Mỗi tool call sai schema = task fail.
- Agent thường chạy trong session dài, context có thể đụng 100K-500K token. Model có context kém sẽ quên.
- Agent chạy 24/7 (cron, gateway), latency cộng dồn. Model chậm 30% = đợi 30% nhiều hơn.
- Vì gọi nhiều, chi phí cộng dồn nhanh. Một task agent có thể tốn 50-500 token request.
Hermes có lợi thế là không bắt bạn cam kết một provider. Config thay trong 30 giây, restart agent, dùng model khác. Nên test thực tế thay vì cãi nhau trên Twitter.
Bảng giá nhanh (cập nhật Q2 2026)
| Model | Input ($/1M token) | Output ($/1M token) | Context window |
|---|---|---|---|
| Claude Sonnet 4.6 | $3.00 | $15.00 | 200K (1M beta) |
| Claude Opus 4.7 | $15.00 | $75.00 | 200K (1M beta) |
| GPT-5.x | ~$2.50 | ~$15.00 | ~256K |
| Gemini 2.5 Pro | ~$1.25 | ~$10.00 | 1M-2M |
| DeepSeek V3.x | ~$0.27 (cache miss) | ~$1.10 | 128K |
DeepSeek rẻ hơn 10-15x so với Claude/GPT. Câu hỏi: rẻ hơn 15 lần thì chất lượng giảm bao nhiêu? Trả lời ngắn: tùy task.
Trục 1: Tool-calling accuracy
Đây là chỉ số quan trọng nhất cho agent. Test mình tự chạy với Hermes (100 task ngẫu nhiên - scrape, gọi API, đọc file, viết file, query DB):
- Claude Sonnet 4.6: ~95% tool call đúng schema lần đầu. Biết khi cần parallel tool call. Recovery tốt khi gặp lỗi.
- GPT-5.x: ~93%. Hơi over-verbose trong tool argument. Đôi khi format JSON sai dấu phẩy cuối.
- Gemini 2.5 Pro: ~88%. Cải thiện nhiều so với Gemini 1.5, nhưng vẫn hay confuse tool semantics khi có tool name giống nhau.
- DeepSeek V3.x: ~80%. Đủ cho task đơn giản, dở khi task phức tạp nhiều bước (chain > 5 step).
Khác biệt 15% giữa Claude và DeepSeek nghe nhỏ, nhưng task chain 10 step: 0.95^10 = 60% thành công, 0.80^10 = 11%. Implication: agent quan trọng nên trả phí cao cho model tốt; agent thử nghiệm/sandbox có thể dùng DeepSeek.
Trục 2: Long context
Khi agent chạy session 2-3 giờ, context có thể đạt 100K-300K token (chat history + tool result + skill). Bench thực tế:
- Gemini 2.5 Pro: thắng tuyệt đối. 1M-2M context, recall tốt ở giữa context. Hợp cho task "đọc cả codebase rồi suggest refactor", "đọc 200 trang PDF rồi tóm tắt".
- Claude Sonnet 4.6: 200K (1M beta cho tier cao). Recall ở zone 100K-200K vẫn tốt.
- GPT-5.x: 256K. Khá ổn, nhưng "lost in the middle" rõ ở 150K+.
- DeepSeek V3.x: 128K. Đủ cho hầu hết task agent thông thường, nhưng không phù hợp cho task long-doc analysis.
Hermes có cơ chế compression: khi context gần đầy, agent tự summarize phần đầu, giữ phần cuối. Cơ chế này áp dụng cho mọi model, nhưng model context nhỏ thì compress nhiều = mất chi tiết.
Trục 3: Latency
Đo qua Hermes một tool call round-trip (input ~5K token, output ~500 token):
| Model | P50 latency | P95 latency | Streaming |
|---|---|---|---|
| GPT-5.x | ~2s | ~5s | Có |
| Claude Sonnet 4.6 | ~3s | ~7s | Có |
| Gemini 2.5 Pro | ~3s | ~8s | Có |
| DeepSeek V3.x | ~4s | ~12s | Có |
DeepSeek chậm hơn vì lý do hạ tầng API (chủ yếu serve từ TQ, latency Asia tốt hơn US). Nếu agent gọi tool 30 lần/task, latency 1s khác biệt = 30s khác biệt total. Quan trọng với UX nếu là chatbot, ít quan trọng với batch job.
Trục 4: Chi phí thực tế cho agent workload
Tính ví dụ: agent giúp viết 1 bài blog dài 2000 từ (research + outline + draft + edit). Estimate token consumption:
- Input tổng (system prompt + tool result + history): ~50K token
- Output tổng (draft + tool args): ~10K token
Cost per bài:
| Model | Cost | 1000 bài/tháng |
|---|---|---|
| Claude Sonnet 4.6 | ~$0.30 | ~$300 |
| GPT-5.x | ~$0.275 | ~$275 |
| Gemini 2.5 Pro | ~$0.16 | ~$160 |
| DeepSeek V3.x | ~$0.024 | ~$24 |
Khác biệt là 10-12x. Nhưng nhớ: DeepSeek có thể fail 20% bài (cần redo bằng người), Claude fail 5%. Cost-effective hay không tùy mô hình kinh doanh.
Config Hermes cho từng provider
File ~/.hermes/config.yaml - swap nhanh:
Claude
llm:
provider: anthropic
model: claude-sonnet-4.6
api_key: ${ANTHROPIC_API_KEY}
max_tokens: 8192
temperature: 0.7OpenAI / GPT
llm:
provider: openai
model: gpt-5.x
api_key: ${OPENAI_API_KEY}
max_tokens: 8192
temperature: 0.7Gemini
llm:
provider: google
model: gemini-2.5-pro
api_key: ${GOOGLE_API_KEY}
max_tokens: 8192DeepSeek
llm:
provider: deepseek
model: deepseek-chat
api_key: ${DEEPSEEK_API_KEY}
base_url: https://api.deepseek.com
max_tokens: 8192Hermes cũng hỗ trợ OpenRouter (gateway tổng) và local model qua Ollama / vLLM, nhưng đó là chủ đề bài khác.
Mixed-model pattern: main agent vs subagent dùng khác model
Pattern mình dùng nhiều nhất ở production:
llm:
default:
provider: anthropic
model: claude-sonnet-4.6
subagent:
provider: deepseek
model: deepseek-chat
reasoning:
provider: openai
model: o3-miniLogic:
- Main agent (router, planner, error recovery): Claude Sonnet vì accuracy
- Subagent (xử lý batch lặp lại): DeepSeek vì rẻ
- Khi gặp task đòi hỏi reasoning sâu (logic, math): switch sang reasoning model
Mình tính trên một workload thực: cào + enrich 5000 product/tháng. Trước dùng all-Claude tốn $400/tháng. Chuyển sang pattern này còn $80/tháng. Quality giảm ~3% nhưng vẫn trong ngưỡng chấp nhận.
Khi nào chọn cái nào - quick guide
| Workload | Top pick | Backup |
|---|---|---|
| Coding agent (sửa code, review, refactor) | Claude Sonnet 4.6 | GPT-5.x |
| Long-doc analysis (đọc 100+ trang) | Gemini 2.5 Pro | Claude (1M beta) |
| Batch scrape, data enrichment | DeepSeek V3.x | Gemini 2.5 Flash |
| Content generation (blog, marketing) | Claude Sonnet 4.6 | GPT-5.x |
| Multilingual / tiếng Việt | Gemini 2.5 Pro | Claude Sonnet 4.6 |
| Real-time chatbot, low latency UX | GPT-5.x | Claude Haiku |
| Vision (đọc screenshot, ảnh) | Claude Sonnet 4.6 | Gemini 2.5 Pro |
| Tool use phức tạp (chain > 10 step) | Claude Sonnet 4.6 | GPT-5.x |
Self-host model qua Hermes
Một option ít người nhắc: Hermes connect Ollama hoặc vLLM local. Khi mình test Qwen 2.5 72B chạy trên VPS GPU, accuracy tool call ~85%, latency 1-2s vì không đi internet, cost ~free sau khi đã trả tiền VPS GPU.
Trade-off: cần VPS có GPU (đắt hơn nhiều), quản lý model weight, dung lượng disk lớn. Hợp cho workload privacy-critical (dữ liệu không gửi ra ngoài) hoặc volume rất lớn (đã đủ break-even VPS GPU).
Khía cạnh ít người nói: tiếng Việt
Test prompt + tool description bằng tiếng Việt:
- Claude Sonnet 4.6: tiếng Việt tự nhiên, hiểu sắc thái tốt. Khi viết content marketing VN, output đọc gần như người viết.
- Gemini 2.5 Pro: tiếng Việt rất ổn (Google có nhiều training data VN).
- GPT-5.x: ổn, đôi khi dùng từ Hán-Việt hơi cứng.
- DeepSeek V3.x: tiếng Việt ổn cho task ngắn, nhưng đoạn dài hay lặp cấu trúc câu.
Đây là yếu tố thực tế cho dev VN: model tốt tiếng Việt = output ít cần edit.
Hạ tầng: VPS vs cloud function
Hermes chạy tốt cả trên VPS Linux thường (Ubuntu 22.04/24.04, Debian) và serverless (Modal, Vercel Sandbox theo doc Nous). Nếu agent chạy 24/7 với cron, multi-channel gateway (Telegram, Discord, Slack), VPS là lựa chọn rẻ và đơn giản:
- TND VPS 80 999k/tháng dư cho một Hermes instance chạy 24/7 với 5-10 subagent
- SSD NVMe Ceph - skill memory, session SQLite, log rotation đều nhanh
- RAM ECC - process Python chạy dài ngày không bị OOM ngẫu nhiên
Kết hợp với proxy IPv4 fresh khi agent cần đi tool ra ngoài (scrape, social) - TND có proxy VN/US dedicated 95k/IP/tháng.
Nếu chưa quen Hermes, đọc bài cài Hermes gắn proxy trước. Đang phân vân chọn cấu hình VPS, xem pillar VPS cho vibe coder.
Bài viết liên quan
Chạy Hermes multi-model 24/7 cần VPS ổn định?
VPS 80 hoặc 160 của TND đáp ứng tốt: SSD NVMe, RAM ECC, datacenter VN, không sweat khi agent gọi LLM dày đặc.



