‹ Back to Blog
Technical Report
Moreh-Tenstorrent AI 数据中心解决方案系统架构
November 18, 2025
本文档由AI自动翻译。内容可能存在不准确之处,如有需要请参阅英文原文。 查看英文原文
查看完整技术报告 PDF
概述
Moreh的使命是通过先进的软件技术为AI数据中心提供NVIDIA GPU的替代方案。作为这一努力的一部分,我们一直与Tenstorrent密切合作,并将于2025年第四季度推出数据中心解决方案。Tenstorrent由传奇半导体架构师Jim Keller领导,通过网络集成AI芯片提供可扩展的硬件。在此基础上,Moreh添加了其独特的集群架构和软件,以高效利用大量芯片,从而完成全栈解决方案。我们确信这是最大限度降低AI数据中心总拥有成本(TCO)的最佳选择。
本文描述了我们提供的Tenstorrent解决方案的架构。我们的方法、芯片架构、集群架构和软件架构与传统的NVIDIA GPU和DGX系统有着根本性的差异。我们将阐述这如何使我们能够优化大规模AI基础设施。以下是我们差异化优势的摘要:
- 方法
- 与GPU相比,我们采用更多数量的轻量级芯片,在集群级别而非单个芯片级别实现高性能和高效率。
- 为实现这一目标,可扩展的网络架构和能够高效利用大量芯片的软件是必不可少的。
- 由于单个芯片不需要极高的性能,可以基于较老的工艺节点(如6 nm或12 nm)制造,并使用GDDR内存代替HBM,从而最大化整体成本效率。
- 芯片不仅限于推理,还可用于训练和推理。这是大规模AI数据中心在采用新型处理器时的关键因素。
- 通过使用GDDR内存和通用的封装技术,我们增加了供应商多样性并增强了供应链的弹性。
- 芯片架构
- 采用大容量软件管理的SRAM(每核约1.5 MB),而非一致性共享缓存等复杂的硬件管理内存层次结构。通过适当的软件支持,可以最大限度地减少片外内存带宽需求。
- 芯片内核间通信通过2D环形Network-on-Chip(NoC)显式执行,而非通过共享内存或缓存间接进行。这允许核间直接数据交换,不消耗片外内存或共享缓存的带宽,同时为软件优化数据移动提供了更大的空间。
- 支持块浮点格式,其中16个相邻元素共享一个公共指数。这在不对精度产生显著影响的情况下,将内存占用和带宽需求减少了约一半。
- 集群架构
- 每个芯片配备内置Ethernet接口,使连接的两个芯片之间能够以低延迟、无需CPU干预的方式直接传输数据。
- 多个芯片通过环形网络互连,无需复杂的交换网络(类似于Google的TPU集群方式)。环形网络有利于典型AI工作负载的通信模式。
- 软件架构
- 我们提供推理框架,可跨多个节点和芯片执行分布式推理,将它们作为单一统一端点呈现;以及训练框架,使多个节点和芯片可作为单个PyTorch设备运行。
- 数据分发、任务分配和芯片间通信由软件自动化。因此,尽管与GPU集群相比芯片数量增加,但整体基础设施更易于使用,工作负载被分配以实现通过环形网络的高效通信。
详细内容请参阅PDF文件。