Setup Proxmox cluster trên dedicated server 2026
Build Proxmox 8 cluster 3 node trên 3 dedicated server. Ceph storage, HA failover, live migration.
TL;DR
Proxmox VE 8 cluster 3 node là cấu hình tối thiểu cho production. Dùng Ceph làm shared storage để HA failover và live migration. Yêu cầu mỗi node tối thiểu 64GB RAM, 2x NVMe (boot + Ceph), 2x 10Gbps NIC (corosync + Ceph public/cluster network). TND cung cấp đủ dedicated server Dell R650/HPE DL360 đáp ứng spec này, đặt tại datacenter Tier 3 Hà Nội/Hải Phòng.
Vì sao chọn Proxmox VE cho hạ tầng ảo hóa 2026
Proxmox Virtual Environment (PVE) là một trong những nền tảng ảo hóa mã nguồn mở phổ biến nhất hiện nay, đặc biệt phù hợp với các doanh nghiệp Việt Nam muốn kiểm soát hoàn toàn hạ tầng mà không bị ràng buộc bởi license VMware (vSphere ngày càng đắt sau khi Broadcom mua lại). Với kiến trúc dựa trên KVM/QEMU + LXC, Proxmox cho phép chạy đồng thời cả máy ảo full-virtualization lẫn container nhẹ trên cùng một cluster.
Khi triển khai trên dedicated server riêng (không phải VPS), bạn có truy cập trực tiếp tới CPU, RAM, NVMe, NIC — không bị nested virtualization làm giảm performance 15-25%. Kết hợp 3 node lại thành cluster, hệ thống đạt được tính sẵn sàng cao (HA) với khả năng tự động khởi động lại VM trên node khác nếu một node die.
Khi nào nên dùng Proxmox cluster thay vì single host?
- Hệ thống cần uptime ≥ 99.9% (downtime ≤ 8.76h/năm)
- Có ≥ 10 VM production cần live migration để bảo trì hardware mà không gián đoạn dịch vụ
- Workload sản xuất chạy database, ERP, hệ thống thanh toán
- Cần shared storage (Ceph/ZFS replication) thay vì local disk
Yêu cầu phần cứng cho cluster 3 node
Đây là cấu hình tối thiểu mà TND khuyến nghị cho production cluster:
| Thành phần | Tối thiểu | Khuyến nghị |
|---|---|---|
| CPU mỗi node | 16 cores / 32 threads | 32 cores / 64 threads (Xeon Gold 6338 hoặc EPYC 7443) |
| RAM mỗi node | 64GB DDR4 ECC | 128-256GB DDR4 ECC |
| Disk boot | 2x 240GB SSD SATA (ZFS mirror) | 2x 480GB NVMe (ZFS mirror) |
| Disk Ceph OSD | 3x 960GB NVMe enterprise | 4-6x 1.92TB NVMe enterprise (Samsung PM9A3, Micron 7450) |
| Network | 2x 1Gbps | 2x 10Gbps SFP+ (1 cho Corosync, 1 cho Ceph) |
| PSU | Dual redundant | Dual redundant + UPS riêng |
Đừng tiết kiệm tiền NIC. 1Gbps cho Ceph public network sẽ trở thành bottleneck khi rebuild OSD — một node die rebuild trên 1Gbps có thể mất 6-12 tiếng, trong khi 10Gbps chỉ mất 45-90 phút.
Kiến trúc network: tách traffic ra sao?
Cluster Proxmox + Ceph cần ít nhất 3 mạng tách biệt để tránh nghẽn:
- Management network (vmbr0, 1Gbps): truy cập web UI, SSH, backup
- Corosync network (vmbr1, 1-10Gbps, latency < 2ms): tim mạch cluster, nếu mất → split-brain
- Ceph public + cluster network (vmbr2, 10Gbps+): client traffic + OSD replication
Nếu chỉ có 2 NIC 10Gbps, có thể gộp Corosync + Ceph public lên cùng VLAN nhưng phải dùng QoS để priority Corosync (corosync chỉ cần < 1Mbps nhưng cực kỳ nhạy latency).
Cài đặt Proxmox VE 8 trên mỗi node
Tải ISO Proxmox VE 8.x từ proxmox.com, cài qua IPMI/iDRAC. TND có sẵn IPMI KVM trên các dedicated server Dell R650 nên không cần ra datacenter cắm USB.
Sau khi cài xong, cấu hình network và update repository (chuyển từ enterprise repo sang no-subscription repo nếu không mua license):
echo "deb http://download.proxmox.com/debian/pve bookworm pve-no-subscription" \ > /etc/apt/sources.list.d/pve-no-subscription.list sed -i 's/^deb/#deb/' /etc/apt/sources.list.d/pve-enterprise.list apt update && apt dist-upgrade -y reboot
Tạo cluster và join 3 node
Trên node 1 (sẽ là node initial), tạo cluster:
# Trên node1 (203.0.113.11) pvecm create tnd-cluster-hn # Trên node2 và node3, join vào cluster pvecm add 203.0.113.11 --link0 10.10.10.11
Sau khi join xong, kiểm tra trạng thái:
pvecm status # Quorum information: Quorate Yes # Membership: 3 nodes # Votes: 3/3
Nếu bạn thấy “Quorate No” → kiểm tra firewall (port 5404, 5405 UDP cho corosync), kiểm tra latency giữa các node, kiểm tra DNS resolve hostname.
Triển khai Ceph distributed storage
Ceph là backbone của HA. Với 3 node × 3 OSD = 9 OSD, replication factor 3 (mặc định), bạn có hiệu năng đọc rất cao và chịu được 1 node die mà data vẫn an toàn.
Cài Ceph qua Proxmox GUI
- Datacenter → Ceph → Install Ceph (chọn version Reef hoặc Squid)
- Network: chọn 10.20.20.0/24 (Ceph public)
- Cluster network: 10.30.30.0/24 (replication traffic, tách hẳn ra)
Tạo monitor và OSD
# Trên mỗi node, tạo MON pveceph mon create # Tạo OSD cho từng NVMe (nvme1n1, nvme2n1, nvme3n1) pveceph osd create /dev/nvme1n1 pveceph osd create /dev/nvme2n1 pveceph osd create /dev/nvme3n1 # Tạo pool cho VM pveceph pool create vm-storage --size 3 --min_size 2 --pg_num 128
Pool vm-storage sẽ xuất hiện trong Storage list của Datacenter, mount vào tất cả 3 node, sẵn sàng cho HA và live migration.
Cấu hình HA Manager
HA Manager là thành phần tự động restart VM trên node khác khi node hiện tại die. Cấu hình qua GUI Datacenter → HA:
- Tạo HA Group
preferred-hn-rack1, priority node1=100, node2=80, node3=60 - Thêm VM vào HA: chọn VMID, request_state=started, max_restart=3, max_relocate=2
- Bật fencing:
/etc/pve/datacenter.cfg→fencing: hardware(yêu cầu IPMI/iDRAC đã config)
HA chỉ work khi cluster quorate. Nếu mất 2/3 node (mất quorum), HA sẽ tự fence node còn lại — đây là tính năng quan trọng để tránh split-brain ghi đồng thời lên Ceph.
Live migration: di chuyển VM không downtime
Với Ceph làm shared storage, live migration cực nhanh vì chỉ cần migrate RAM state, không phải copy disk:
# Migrate VM 101 từ node1 sang node2
qm migrate 101 node2 --online
# Migrate cả batch để bảo trì node1
for vmid in $(qm list | awk '/node1/ {print $1}'); do
qm migrate $vmid node2 --online
done
VM 16GB RAM thường migrate trong 30-90 giây trên mạng 10Gbps, downtime < 100ms (gần như không nhận thấy với HTTP).
Backup chiến lược: PBS hay snapshot Ceph?
Hai phương án:
- Proxmox Backup Server (PBS): backup deduplicated, incremental, lưu ra ngoài cluster. TND khuyến nghị đặt PBS trên một server riêng tại datacenter khác (ví dụ HCM nếu cluster ở HN) để chống thảm họa.
- Ceph RBD snapshot: nhanh, instant, nhưng vẫn nằm trong cluster — không chống được mất toàn bộ cluster.
Tốt nhất là kết hợp cả hai: snapshot Ceph 4 lần/ngày (giữ 24h) + PBS daily incremental retention 30 ngày + weekly retention 12 tuần.
Chi phí thực tế và khuyến nghị TND
Một cluster 3 node spec trung bình (32 cores / 128GB RAM / 4TB NVMe Ceph / 10Gbps) tại TND có giá tham khảo khoảng 18-25 triệu VND/tháng/node, tổng 55-75 triệu VND/tháng cho cluster. So với cùng spec mua mới hardware (chi phí ~ 800 triệu VND đầu tư + datacenter colocation), thuê dedicated server thường tiết kiệm hơn nếu thời gian sử dụng < 36 tháng.
Đọc thêm bài Dedicated server vs VPS: khi nào cần bare metal để hiểu rõ workload nào thực sự cần bare metal. Nếu bạn cần GPU cho AI workload trong cluster, tham khảo dịch vụ GPU VPS của TND.
Cuối cùng, để giảm tải vận hành, bạn có thể dùng dịch vụ server management của TND — team TND sẽ giám sát Proxmox, Ceph, áp dụng patch, xử lý sự cố 24/7.
Build Proxmox cluster với TND
Dedicated server Dell/HPE đặt tại Tier 3 datacenter, 10Gbps network, IPMI sẵn — phù hợp Proxmox HA cluster.