Cloud VPS 20
- CPU1 socket
- RAM1 GB DDR4
- Lưu trữ20 GB SSD CEPH
- Network200Mbps shared
- IP1× IPv4 + 1× IPv6
- DatacenterViệt Nam
Ollama pre-installed sẵn trên VPS TND. Chạy Llama, Qwen, Mistral, Gemma, DeepSeek và nhiều model open source khác, gọi qua API tương thích OpenAI. Dữ liệu nằm trên VPS của bạn, không gửi ra bên thứ ba. Đăng ký dùng thử 7 ngày, hoàn tiền 30 ngày.
Ollama là công cụ mã nguồn mở giúp chạy các model ngôn ngữ lớn ngay trên máy chủ của bạn. Bạn tải model về một lệnh, hỏi đáp qua dòng lệnh hoặc gọi qua REST API tương thích OpenAI. Không cần GPU đắt tiền, model nhỏ chạy được trên VPS RAM lớn.
Phù hợp cho dự án cần riêng tư dữ liệu, dev test prompt, hay những tác vụ nhẹ mà bạn không muốn trả phí token theo lượt gọi. Toàn quyền kiểm soát server, model và chi phí cố định mỗi tháng.
Các tính năng chính của Ollama, đã được cài sẵn và tinh chỉnh trên VPS TND.
Lệnh ollama run kéo model về và chat ngay, không cần cấu hình phức tạp.
Endpoint /v1/chat/completions cho phép tái sử dụng code và thư viện có sẵn.
Tạo vector embeddings local để xây tìm kiếm ngữ nghĩa và RAG không gửi data ra ngoài.
Phiên bản quantized 3B đến 8B chạy được trên VPS RAM lớn, tiết kiệm tài nguyên.
Định nghĩa system prompt, tham số và template riêng cho từng model qua Modelfile.
Dùng làm backend LLM cho n8n, Dify, Flowise để build workflow và chatbot AI.
Tất cả gói đã bao gồm IPv4 + IPv6, snapshot, DDoS protection và datacenter Việt Nam. Không phí ẩn - không phí khởi tạo.
Mọi gói đều cài sẵn Ollama. Sau khi đặt, chọn template Ollama trong bước cài đặt.
Stack đã được cài sẵn và tinh chỉnh để chạy model local ổn định, dễ mở rộng RAM khi cần.
Cài sẵn sẵn sàng, login và chạy ollama run là dùng được model ngay.
Gói RAM cao giúp nạp model 7B-8B quantized, I/O nhanh khi tải trọng số.
Đội kỹ thuật giúp chọn model phù hợp RAM và cấu hình API.
Đăng ký test free, hoàn tiền 30 ngày nếu không phù hợp.
Ollama là công cụ mã nguồn mở giúp tải và chạy các model ngôn ngữ lớn open source ngay trên máy chủ của bạn. Bạn chạy model qua dòng lệnh hoặc gọi qua REST API tương thích OpenAI, không phụ thuộc dịch vụ đám mây bên ngoài.
Được, Ollama chạy trên CPU. Các model nhỏ 3B đến 8B bản quantized chạy ổn định trên VPS RAM lớn, tốc độ chậm hơn GPU nhưng đủ dùng cho dev, test và tác vụ nhẹ. Theo hướng dẫn của Ollama, model 7B cần ít nhất 8 GB RAM và model 13B cần 16 GB RAM, nên chọn gói RAM phù hợp với kích thước model.
Với model 3B chọn từ gói Cloud VPS 80 (6 GB RAM). Với model 7B đến 8B nên chọn gói Cloud VPS 160 (8 GB RAM) trở lên. Nếu chạy nhiều model song song hoặc context dài, chọn gói RAM cao hơn để mượt.
Ollama hỗ trợ nhiều model open source như Llama, Qwen, Mistral, Gemma, DeepSeek, Phi và nhiều model khác trong thư viện tại ollama.com/library. Bạn cũng tải được model embeddings để xây RAG.
Ollama hợp với chatbot riêng tư, dev và test prompt không trả phí token, xây RAG với dữ liệu nội bộ, và làm backend LLM cho n8n, Dify hay Flowise. Vì dữ liệu nằm trên VPS của bạn nên phù hợp các dự án quan tâm quyền riêng tư.
Ollama pre-installed, API tương thích OpenAI, dữ liệu riêng tư, dùng thử 7 ngày, hoàn tiền 30 ngày.