Technical Report
Kiến trúc hệ thống giải pháp trung tâm dữ liệu AI Moreh-Tenstorrent
November 18, 2025
Tài liệu này được dịch tự động bằng AI. Nội dung có thể chưa chính xác, vui lòng tham khảo bản gốc tiếng Anh nếu cần. Xem bản gốc tiếng Anh
Tổng quan
Sứ mệnh của Moreh là cung cấp các lựa chọn thay thế cho NVIDIA GPU trong các trung tâm dữ liệu AI thông qua các công nghệ phần mềm tiên tiến. Là một phần của nỗ lực này, chúng tôi đã hợp tác chặt chẽ với Tenstorrent và sẽ ra mắt giải pháp trung tâm dữ liệu vào quý 4 năm 2025. Tenstorrent, do kiến trúc sư bán dẫn huyền thoại Jim Keller dẫn dắt, cung cấp phần cứng có khả năng mở rộng thông qua các chip AI tích hợp mạng. Trên nền tảng đó, Moreh bổ sung kiến trúc cụm và phần mềm độc đáo để sử dụng hiệu quả nhiều chip, hoàn thiện giải pháp toàn diện. Chúng tôi tin rằng đây là lựa chọn tốt nhất để giảm thiểu tổng chi phí sở hữu (TCO) của các trung tâm dữ liệu AI.
Bài viết này mô tả kiến trúc của giải pháp Tenstorrent mà chúng tôi cung cấp. Cách tiếp cận, kiến trúc chip, kiến trúc cụm và kiến trúc phần mềm của chúng tôi khác biệt căn bản so với các GPU NVIDIA và hệ thống DGX truyền thống. Chúng tôi giải thích cách điều này cho phép tối ưu hóa cơ sở hạ tầng AI quy mô lớn. Dưới đây là tóm tắt các yếu tố khác biệt của chúng tôi:
- Cách tiếp cận
- Chúng tôi sử dụng số lượng lớn hơn các chip nhẹ hơn so với GPU, đạt được hiệu suất cao và hiệu quả ở cấp cụm thay vì ở cấp chip riêng lẻ.
- Để hiện thực hóa điều này, kiến trúc mạng có khả năng mở rộng và phần mềm có thể tận dụng hiệu quả nhiều chip là thiết yếu.
- Vì các chip riêng lẻ không yêu cầu hiệu suất cực cao, chúng có thể được sản xuất trên các node quy trình cũ hơn (ví dụ: 6 nm hoặc 12 nm) và sử dụng bộ nhớ GDDR thay vì HBM, từ đó tối đa hóa hiệu quả chi phí tổng thể.
- Các chip không chỉ giới hạn ở suy luận mà có thể được sử dụng cho cả huấn luyện và suy luận. Đây là yếu tố quan trọng đối với các trung tâm dữ liệu AI quy mô lớn khi áp dụng loại bộ xử lý mới.
- Bằng cách sử dụng bộ nhớ GDDR và công nghệ đóng gói phổ biến, chúng tôi tăng cường sự đa dạng nhà cung cấp và khả năng phục hồi của chuỗi cung ứng.
- Kiến trúc chip
- Áp dụng SRAM do phần mềm quản lý dung lượng lớn (khoảng 1.5 MB mỗi lõi) thay vì phân cấp bộ nhớ do phần cứng quản lý phức tạp như bộ nhớ đệm chia sẻ nhất quán. Với sự hỗ trợ phần mềm phù hợp, điều này có thể giảm thiểu yêu cầu băng thông bộ nhớ ngoài chip.
- Giao tiếp giữa các lõi trong chip được thực hiện một cách tường minh thông qua Network-on-Chip(NoC) dạng torus 2D, thay vì gián tiếp qua bộ nhớ chia sẻ hoặc bộ nhớ đệm. Điều này cho phép trao đổi dữ liệu trực tiếp giữa các lõi mà không tiêu tốn băng thông bộ nhớ ngoài chip hoặc bộ nhớ đệm chia sẻ, đồng thời tạo thêm không gian để phần mềm tối ưu hóa việc di chuyển dữ liệu.
- Hỗ trợ định dạng dấu phẩy động khối, trong đó 16 phần tử liền kề chia sẻ một số mũ chung. Điều này giảm dung lượng bộ nhớ và yêu cầu băng thông khoảng một nửa mà không gây ảnh hưởng đáng kể đến độ chính xác.
- Kiến trúc cụm
- Mỗi chip được trang bị giao diện Ethernet tích hợp, cho phép truyền dữ liệu trực tiếp giữa hai chip được kết nối với độ trễ thấp và không cần sự can thiệp của CPU.
- Nhiều chip được kết nối với nhau thông qua mạng torus, không cần mạng chuyển mạch phức tạp (tương tự cách tiếp cận cụm TPU của Google). Mạng torus có lợi cho các mẫu giao tiếp của các tải công việc AI điển hình.
- Kiến trúc phần mềm
- Chúng tôi cung cấp framework suy luận thực hiện suy luận phân tán trên nhiều node và chip, trình bày chúng như một điểm cuối thống nhất duy nhất, và framework huấn luyện cho phép nhiều node và chip hoạt động như một thiết bị PyTorch duy nhất.
- Phân phối dữ liệu, phân bổ tác vụ và giao tiếp giữa các chip được tự động hóa bởi phần mềm. Do đó, mặc dù số lượng chip tăng so với cụm GPU, cơ sở hạ tầng tổng thể trở nên dễ sử dụng hơn, với các tải công việc được phân phối để cho phép giao tiếp hiệu quả qua mạng torus.
Vui lòng đọc thêm chi tiết trong tệp PDF.