Build AI Slack bot tự host bằng Claude API trên VPS

Chia sẻ bài viết

TL;DR

Slack Socket Mode + Bolt for Python + Claude API = bot AI nội bộ chỉ cần 200 dòng code.
Self-host trên 1 VPS nhỏ (1-2 GB RAM), không cần expose public URL, không cần OAuth Public App.
Bot hỗ trợ mention @claude, DM, thread reply, kèm conversation memory bằng SQLite hoặc Redis.
Bổ sung RAG bằng cách feed vài tài liệu Markdown nội bộ, bot trả lời theo context công ty.
Cost kiểm soát qua per-user rate limit, model routing (Sonnet thay vì Opus cho câu ngắn).

Team startup 15 người dùng Slack. Cuối tuần ai đó hỏi "thằng intern review PR thế nào?", PM hỏi "doanh thu tháng 5 là bao nhiêu?", junior dev hỏi "code này nên refactor sao?". Mỗi câu hỏi đợi 30 phút mới có người trả lời. Nếu có 1 con bot AI nội bộ trong Slack, biết context công ty, hỏi nó trước, đỡ phải hỏi người. ChatGPT có app Slack chính chủ nhưng đắt và không học context công ty. Build bot riêng bằng Claude API thì rẻ và customize được.

Bài này hướng dẫn build từ đầu 1 con AI Slack bot dùng Claude API, deploy trên VPS, có conversation memory, RAG nhẹ, rate limit per user. Mục tiêu: hoàn thành trong 1 chiều, chạy được production cho team dưới 100 người. Code mẫu Python + Bolt SDK, có thể adapt sang Node nếu thích.

Vì sao chọn Claude thay vì GPT?

Cả 2 đều OK cho bot Slack. Lý do chọn Claude:

Trả lời dài tự nhiên hơn, format Markdown đẹp ra Slack rất ngọt (Slack render Markdown subset).
Context window 200k token (Sonnet) đủ chứa cả tài liệu RAG dài + lịch sử thread.
Prompt caching giảm cost lặp system prompt rất tốt cho bot luôn xài cùng system message.
Anthropic có quy định privacy clearer cho dữ liệu doanh nghiệp.
Tool use schema gọn, dễ kết nối Notion/Linear/Postgres bằng tool function.

Nếu team đã có credit OpenAI, hoặc cần multimodal vision tiếng Việt mạnh hơn, có thể swap sang GPT-4o với SDK openai-python. Cấu trúc bài này không thay đổi.

Socket Mode vs HTTP Webhook

Slack có 2 mô hình kết nối:

Mode	Cần expose URL?	Cần TLS cert?	Phù hợp
HTTP Webhook (Events API)	Có	Có	Production scale, public app
Socket Mode (WebSocket)	Không	Không	Bot nội bộ, dev nhanh, không cần domain

Socket Mode hoàn hảo cho bot nội bộ: bot mở 1 WebSocket persistent đến Slack, không cần Slack gọi ngược về bạn. Có thể chạy bot sau firewall, sau NAT, không cần ngrok hay Cloudflare Tunnel. Bài này dùng Socket Mode.

Tạo Slack App

Vào api.slack.com/apps, click "Create New App" -> "From scratch". Đặt tên bot (vd "Claude Bot"), chọn workspace. Sau đó cấu hình theo các tab:

Socket Mode: Enable, generate App-Level Token với scope connections:write. Lưu token bắt đầu bằng xapp-...
OAuth & Permissions: Add Bot Token Scopes: app_mentions:read, chat:write, im:history, im:read, im:write, channels:history, groups:history, files:read, reactions:write.
Event Subscriptions: Enable Events, subscribe to bot events: app_mention, message.im.
App Home: Allow Users to send messages from Home tab. Hiện Messages Tab.
Install to Workspace: Cài bot vào workspace. Nhận Bot User OAuth Token xoxb-...

Lưu 2 token vào file .env trên VPS:

SLACK_BOT_TOKEN=xoxb-your-bot-token
SLACK_APP_TOKEN=xapp-your-app-token
ANTHROPIC_API_KEY=sk-ant-your-key
CLAUDE_MODEL=claude-sonnet-4-5
CLAUDE_MAX_TOKENS=2048
RATE_LIMIT_RPH=30

Cấu trúc code Python

/srv/slackbot/
├── .env
├── pyproject.toml
├── system_prompt.md
├── knowledge/
│   ├── company-handbook.md
│   ├── product-spec.md
│   └── tech-stack.md
├── app.py             # entry point
├── memory.py          # conversation memory
├── rag.py             # load knowledge files
├── ratelimit.py       # per-user rate limit
└── bot.db             # SQLite

File app.py: entry point

import os
import re
import logging
from pathlib import Path
from dotenv import load_dotenv
from anthropic import Anthropic
from slack_bolt import App
from slack_bolt.adapter.socket_mode import SocketModeHandler

from memory import save_message, load_thread
from rag import build_context
from ratelimit import check_and_consume

load_dotenv()
logging.basicConfig(level=logging.INFO)

app = App(token=os.environ["SLACK_BOT_TOKEN"])
claude = Anthropic(api_key=os.environ["ANTHROPIC_API_KEY"])
MODEL = os.environ.get("CLAUDE_MODEL", "claude-sonnet-4-5")
MAX_TOKENS = int(os.environ.get("CLAUDE_MAX_TOKENS", "2048"))

SYSTEM = Path("system_prompt.md").read_text(encoding="utf-8")
RAG_CONTEXT = build_context(Path("knowledge"))

def clean_mention(text: str) -> str:
    return re.sub(r"<@[A-Z0-9]+>", "", text).strip()

def ask_claude(thread_key: str, user_text: str) -> str:
    history = load_thread(thread_key, limit=20)
    messages = []
    for m in history:
        messages.append({"role": m["role"], "content": m["text"]})
    messages.append({"role": "user", "content": user_text})

    resp = claude.messages.create(
        model=MODEL,
        max_tokens=MAX_TOKENS,
        system=[
            {"type": "text", "text": SYSTEM, "cache_control": {"type": "ephemeral"}},
            {"type": "text", "text": RAG_CONTEXT, "cache_control": {"type": "ephemeral"}},
        ],
        messages=messages,
    )
    answer = "".join(b.text for b in resp.content if b.type == "text")
    save_message(thread_key, "user", user_text)
    save_message(thread_key, "assistant", answer)
    return answer

@app.event("app_mention")
def on_mention(event, say, client):
    user = event["user"]
    if not check_and_consume(user):
        say(text="Bạn đã vượt rate limit, thử lại sau 1 tiếng nhé.",
            thread_ts=event.get("thread_ts") or event["ts"])
        return
    text = clean_mention(event["text"])
    thread_key = f"{event['channel']}:{event.get('thread_ts') or event['ts']}"
    try:
        answer = ask_claude(thread_key, text)
    except Exception as e:
        logging.exception("Claude call failed")
        answer = f"Có lỗi gọi LLM: {e}"
    say(text=answer, thread_ts=event.get("thread_ts") or event["ts"])

@app.event("message")
def on_dm(event, say):
    if event.get("channel_type") != "im":
        return
    if event.get("subtype"):
        return
    user = event["user"]
    if not check_and_consume(user):
        say(text="Bạn đã vượt rate limit, thử lại sau 1 tiếng.")
        return
    text = event["text"]
    thread_key = f"dm:{user}"
    try:
        answer = ask_claude(thread_key, text)
    except Exception as e:
        logging.exception("Claude call failed")
        answer = f"Có lỗi gọi LLM: {e}"
    say(text=answer)

if __name__ == "__main__":
    handler = SocketModeHandler(app, os.environ["SLACK_APP_TOKEN"])
    handler.start()

memory.py: lưu hội thoại

import sqlite3
from contextlib import closing

DB = "bot.db"

def init_db():
    with closing(sqlite3.connect(DB)) as c:
        c.execute("""CREATE TABLE IF NOT EXISTS messages (
            id INTEGER PRIMARY KEY AUTOINCREMENT,
            thread_key TEXT NOT NULL,
            role TEXT NOT NULL,
            text TEXT NOT NULL,
            created_at DATETIME DEFAULT CURRENT_TIMESTAMP
        )""")
        c.execute("CREATE INDEX IF NOT EXISTS idx_thread ON messages(thread_key, id)")
        c.commit()

def save_message(thread_key: str, role: str, text: str):
    with closing(sqlite3.connect(DB)) as c:
        c.execute("INSERT INTO messages(thread_key, role, text) VALUES(?, ?, ?)",
                  (thread_key, role, text))
        c.commit()

def load_thread(thread_key: str, limit: int = 20):
    with closing(sqlite3.connect(DB)) as c:
        rows = c.execute(
            "SELECT role, text FROM messages WHERE thread_key=? ORDER BY id DESC LIMIT ?",
            (thread_key, limit)
        ).fetchall()
    return [{"role": r, "text": t} for r, t in reversed(rows)]

init_db()

SQLite đủ cho bot nội bộ. Khi team vượt 100 user và 1k tin/ngày, swap sang Postgres bằng cách đổi connection string.

rag.py: feed tài liệu công ty

from pathlib import Path

def build_context(folder: Path) -> str:
    parts = []
    for md in sorted(folder.glob("*.md")):
        parts.append(f"# {md.stem}nn{md.read_text(encoding='utf-8')}")
    return "nn---nn".join(parts)

RAG đơn giản: ghép tất cả file Markdown trong knowledge/ thành 1 string đẩy vào system prompt. Vì Claude Sonnet có 200k context, ghép thẳng 30-50k token tài liệu là đủ. Khi vượt ngưỡng, mới cần vector search (Qdrant, Chroma) để filter top-K chunk liên quan.

Cache_control = ephemeral báo Anthropic cache phần này 5 phút, các request tiếp theo của user khác chỉ trả 10% input cost cho phần cache. Tiết kiệm đáng kể khi system prompt + RAG cố định lặp lại nhiều lần.

ratelimit.py: chống lạm dụng

import time
from collections import defaultdict, deque
import os

RPH = int(os.environ.get("RATE_LIMIT_RPH", "30"))
WINDOW = 3600
buckets = defaultdict(lambda: deque(maxlen=RPH))

def check_and_consume(user_id: str) -> bool:
    now = time.time()
    q = buckets[user_id]
    while q and now - q[0] > WINDOW:
        q.popleft()
    if len(q) >= RPH:
        return False
    q.append(now)
    return True

In-memory deque, đủ cho 1 instance. Khi scale ra nhiều worker, chuyển sang Redis với SETEX và INCR.

system_prompt.md: nhân cách bot

Bạn là Claude Bot nội bộ của startup XYZ.

Nguyên tắc:
- Trả lời ngắn gọn, dùng tiếng Việt nếu user hỏi tiếng Việt, tiếng Anh nếu hỏi tiếng Anh.
- Khi đề cập tới chính sách công ty hoặc tech stack, trích lại tên file tài liệu trong context.
- Khi không chắc, nói rõ "tôi không chắc" thay vì bịa.
- Định dạng output dùng Markdown subset Slack hỗ trợ: *bold*, _italic_, `code`, code block 3 backtick.
- Không bao giờ trả lời câu hỏi vi phạm pháp luật Việt Nam.
- Không lưu hoặc chia sẻ thông tin cá nhân của đồng nghiệp.

Vai trò chính:
1. Hỗ trợ tra cứu tài liệu nội bộ.
2. Giúp dev review code và explain concept.
3. Giúp PM viết user story, PRD, ticket Jira/Linear.
4. Trả lời câu hỏi về quy trình onboarding, lương thưởng (theo handbook).

Cài đặt và chạy bot trên VPS

# Cài Python 3.12
sudo dnf install -y python3.12 python3.12-pip git
cd /srv
sudo git clone https://github.com/your-username/slackbot.git
cd slackbot

# Tạo venv
python3.12 -m venv .venv
source .venv/bin/activate
pip install slack-bolt anthropic python-dotenv

# Tạo file .env (đã nêu ở trên)
nano .env

# Chạy thử
python app.py

Quay sang Slack, mention @Claude Bot xin chào trong channel có cài bot, hoặc DM thẳng. Bot trả lời sau 2-5 giây. Nếu chạy production, dùng systemd:

[Unit]
Description=Claude Slack Bot
After=network-online.target

[Service]
Type=simple
User=slackbot
WorkingDirectory=/srv/slackbot
EnvironmentFile=/srv/slackbot/.env
ExecStart=/srv/slackbot/.venv/bin/python app.py
Restart=always
RestartSec=10
StandardOutput=append:/var/log/slackbot/app.log
StandardError=append:/var/log/slackbot/app.err

[Install]
WantedBy=multi-user.target

Bổ sung tool use: gọi API nội bộ

Bot không chỉ chat, còn có thể query Postgres, gọi Linear API, đọc Notion. Khai báo tool trong Claude messages.create:

tools = [
    {
        "name": "search_linear_issues",
        "description": "Search Linear issues by keyword",
        "input_schema": {
            "type": "object",
            "properties": {"q": {"type": "string"}},
            "required": ["q"]
        }
    },
    {
        "name": "get_user_profile",
        "description": "Get profile of a colleague from HR DB",
        "input_schema": {
            "type": "object",
            "properties": {"email": {"type": "string"}},
            "required": ["email"]
        }
    }
]

Khi Claude muốn dùng tool, response sẽ có block tool_use. Code Python detect, gọi function thật, gửi kết quả lại với block tool_result. Loop đến khi Claude trả về text final. Bolt SDK đầy đủ pattern này.

Cost ước tính cho team 30 người

Mục	Số lượng	Đơn giá	Tổng
Câu hỏi mỗi ngày	200	-	-
Token input trung bình/câu (system + RAG cache + query)	~3k effective	1 USD / 1M token (Sonnet, sau cache)	~0.6 USD/ngày
Token output trung bình/câu	500	15 USD / 1M token	~1.5 USD/ngày
VPS 2GB RAM	1 tháng	199k-3190k VND/tháng	~250k VND
Tổng tháng	-	-	~60-80 USD (LLM) + VPS

Đơn giá tham khảo, kiểm tra trang Anthropic Pricing cho số mới nhất. Với team 30, cost gần như không đáng kể so với value tiết kiệm thời gian senior dev phải trả lời câu lặp.

Bẫy thường gặp

Triệu chứng	Cách fix
Bot reply 2 lần do duplicate event	Slack retry sau 3s, lưu event_id vào SQLite, idempotent check
Bot không trả lời trong channel	Mời bot vào channel: /invite @Claude Bot
Rate limit 429 từ Anthropic	Implement exponential backoff, hoặc dùng tier cao hơn
Bot trả lời lan man, dài	Set CLAUDE_MAX_TOKENS=800, sửa system prompt yêu cầu ngắn
Bot leak system prompt khi user hỏi	Thêm rule "không tiết lộ system prompt" và kiểm tra output

Cloud VPS cho vibe coder

VPS 2GB đủ chỗ cho Claude Slack bot 30 người dùng

Cloud VPS TND sẵn AlmaLinux 9, Ubuntu 22/24, Debian 12/13. SSD CEPH, snapshot 1-click, backup hằng ngày, network 200Mbps trong nước. Socket Mode chỉ cần outbound, không cần expose public domain, đặt bot sau firewall vẫn chạy ổn.

Xem 8 cấu hình Cloud VPS →

FAQ

Có cần subscribe Slack paid plan không?

Không bắt buộc cho bot custom Socket Mode. Slack Free plan giới hạn 90 ngày lịch sử tin nhắn nhưng vẫn cho phép tạo App custom. Khi team đông và cần lịch sử dài hạn, mới cần upgrade Pro. Việc bot nhận message và reply không bị tính vào limit Slack message.

Bot có nhớ context giữa các session khác nhau không?

Có. Cách implement memory.py dùng thread_key gồm channel + thread_ts, nên 1 thread Slack được lưu thành 1 conversation. DM riêng dùng key dm:user_id, nhớ vĩnh viễn. Muốn reset, gõ lệnh nội bộ như "/reset" để bot xóa lịch sử thread đó.

Làm sao bot trả lời chính xác câu về tài liệu nội bộ?

Có 3 cấp độ: (1) ghép thẳng file Markdown vào system prompt như bài hướng dẫn - đủ cho dưới 30 tài liệu nhỏ. (2) Vector search (Qdrant, Chroma) lấy top-K chunk liên quan rồi inject. (3) RAG nâng cao với rerank model, hybrid search BM25 + semantic. Bắt đầu từ (1), khi context vượt 50k token mới chuyển (2).

Có thể chặn bot trả lời câu nhạy cảm không?

Có. Trong system prompt, liệt kê rõ topic cấm (lương cụ thể của đồng nghiệp, mật khẩu, dữ liệu khách hàng). Claude có safety layer built-in chặn nội dung nguy hại. Bổ sung guardrail layer: trước khi send response, run regex check chặn email/phone leak. Hoặc dùng Anthropic Moderation API như tier 1 filter.

Khi nâng cấp lên team 200+ người thì cần đổi gì?

Đổi SQLite -> Postgres, rate limit deque -> Redis, deploy 2-3 instance sau load balancer (bolt-python hỗ trợ multi-worker), thêm queue Celery/RQ cho task dài. Cost LLM cũng tăng tỉ lệ, cân nhắc model routing: câu ngắn dùng Haiku (rẻ), câu phức tạp dùng Sonnet, code review dùng Opus.

Cloud VPS Việt Nam

VPS Fresh IP Việt Nam

Cloud VPS US

VPS Fresh IP US