Solution
Cluster GPU AMD trọn gói tối ưu cho suy luận
Moreh cung cấp cluster GPU AMD Instinct với tối ưu phần mềm toàn diện tích hợp sẵn — từ kernel tùy chỉnh đến điều phối cấp cluster — để hạ tầng của bạn sẵn sàng cho sản xuất ngay từ ngày đầu tiên.
Chúng tôi cung cấp
GPU
Bộ tăng tốc AMD Instinct
Qua mọi thế hệ, GPU AMD Instinct đạt hoặc vượt NVIDIA về khả năng tính toán, bộ nhớ và băng thông. Giao tiếp GPU trong node được xử lý bởi Infinity Fabric, tương đương NVLink của NVIDIA.
MI300X vs H100
Hiệu năng FP16
Bộ nhớ
Băng thông bộ nhớ
MI325X vs H200
Hiệu năng FP16
Bộ nhớ
Băng thông bộ nhớ
MI355X vs B200
Hiệu năng FP16
Bộ nhớ
Băng thông bộ nhớ
Mạng
Mạng cluster RoCE
Moreh thiết kế topo mạng RoCE (RDMA over Converged Ethernet) được tối ưu cho khối lượng công việc và quy mô cluster, kèm theo tối ưu truyền thông ở cấp phần mềm.
- •Topo mạng RoCE thiết kế theo quy mô cluster và khối lượng công việc
- •Tối ưu cấp phần mềm để giảm thiểu chi phí truyền thông
Nền tảng
Nền tảng cluster trên Kubernetes
Mọi cluster đều đi kèm nền tảng Kubernetes sẵn sàng cho sản xuất, được xây dựng từ các thành phần mã nguồn mở — giúp đội ngũ của bạn tập trung vào mô hình thay vì hạ tầng.
- •Điều phối Kubernetes với lập lịch nhận biết GPU
- •Lưu trữ phân tán Ceph cho trọng số mô hình và checkpoint
- •Giám sát và ghi log (Prometheus, Grafana, Loki)
- •Xác thực và kiểm soát truy cập (LDAP, Keycloak)
- •Quản lý và lập lịch tác vụ AI (SkyPilot)
Phần mềm
Phần mềm suy luận Moreh
Mọi cluster đều đi kèm phần mềm suy luận toàn diện của Moreh, được xây dựng chuyên biệt cho GPU AMD và sẵn sàng cho sản xuất ngay từ ngày đầu.
Moreh vLLM
Engine suy luận đơn node
- •Thay thế vLLM ngay lập tức với API tương thích OpenAI
- •Thông lượng và độ trễ hàng đầu trên GPU AMD
- •Cung cấp dưới dạng container image, cập nhật thường xuyên
MoAI Inference Framework
Điều phối quy mô cluster
- •Mở rộng từ đơn node đến triển khai toàn cluster
- •Phân tách Prefill-Decode, định tuyến thông minh, tự động mở rộng và tối ưu theo SLO
- •API endpoint tương thích OpenAI cho toàn bộ cluster
GPU đa dạng
Bạn đã có GPU NVIDIA?
Bạn không cần thay thế hạ tầng hiện có. Thêm node GPU AMD vào cluster NVIDIA và vận hành chúng như một endpoint suy luận thống nhất duy nhất. MoAI Inference Framework xử lý điều phối đa nhà cung cấp — tự động định tuyến mỗi yêu cầu đến bộ tăng tốc phù hợp.
Tìm hiểu về cluster GPU đa dạng ›Why AMD
Tại sao chọn cluster GPU AMD
GPU AMD Instinct là lựa chọn thay thế hấp dẫn cho NVIDIA — và phần mềm của Moreh đảm bảo bạn tận dụng được toàn bộ lợi thế đó.
Nhiều bộ nhớ hơn, mô hình lớn hơn
MI325X cung cấp 256 GB mỗi GPU — gấp 1.8 lần H200. Phục vụ mô hình lớn hơn trên mỗi node, hoặc chạy cùng mô hình với ít GPU hơn.
TCO cạnh tranh
GPU AMD Instinct mang lại khả năng tính toán trên mỗi đô la tương đương hoặc tốt hơn. Kết hợp với tối ưu phần mềm của Moreh, bạn đạt thông lượng cao hơn từ cùng mức đầu tư.
Không đánh đổi hiệu năng
Phần mềm toàn diện của Moreh lấp đầy khoảng cách hệ sinh thái. Kernel tùy chỉnh, điều phối cấp cluster và công cụ cấp sản xuất đảm bảo GPU AMD phát huy hết tiềm năng.
Hỗ trợ toàn diện
Cung cấp phần cứng
Chúng tôi tìm nguồn và cung cấp GPU AMD Instinct và server, xử lý quy trình mua sắm thay bạn.
Xây dựng cluster
Chúng tôi thiết kế và xây dựng cluster — từ bố trí rack và quy hoạch điện đến topo mạng.
Triển khai phần mềm
Moreh vLLM và MoAI Inference Framework được triển khai và tối ưu cho khối lượng công việc cụ thể của bạn.
Hỗ trợ kỹ thuật
Hỗ trợ liên tục cho các vấn đề liên quan đến GPU AMD, tinh chỉnh hiệu năng và cập nhật phần mềm.
Sẵn sàng triển khai suy luận GPU AMD quy mô lớn?
Từ đơn node đến toàn cluster — chúng tôi lo phần cứng, phần mềm và mọi thứ ở giữa.
Liên hệ bộ phận kinh doanh