Moreh-Tenstorrent AI Data Center Solution System Architecture

概述

Moreh的使命是通过先进的软件技术为AI数据中心提供NVIDIA GPU的替代方案。作为这一努力的一部分，我们一直与Tenstorrent密切合作，并将于2025年第四季度推出数据中心解决方案。Tenstorrent由传奇半导体架构师Jim Keller领导，通过网络集成AI芯片提供可扩展的硬件。在此基础上，Moreh添加了其独特的集群架构和软件，以高效利用大量芯片，从而完成全栈解决方案。我们确信这是最大限度降低AI数据中心总拥有成本(TCO)的最佳选择。

本文描述了我们提供的Tenstorrent解决方案的架构。我们的方法、芯片架构、集群架构和软件架构与传统的NVIDIA GPU和DGX系统有着根本性的差异。我们将阐述这如何使我们能够优化大规模AI基础设施。以下是我们差异化优势的摘要：

方法
- 与GPU相比，我们采用更多数量的轻量级芯片，在集群级别而非单个芯片级别实现高性能和高效率。
- 为实现这一目标，可扩展的网络架构和能够高效利用大量芯片的软件是必不可少的。
- 由于单个芯片不需要极高的性能，可以基于较老的工艺节点（如6 nm或12 nm）制造，并使用GDDR内存代替HBM，从而最大化整体成本效率。
- 芯片不仅限于推理，还可用于训练和推理。这是大规模AI数据中心在采用新型处理器时的关键因素。
- 通过使用GDDR内存和通用的封装技术，我们增加了供应商多样性并增强了供应链的弹性。
芯片架构
- 采用大容量软件管理的SRAM（每核约1.5 MB），而非一致性共享缓存等复杂的硬件管理内存层次结构。通过适当的软件支持，可以最大限度地减少片外内存带宽需求。
- 芯片内核间通信通过2D环形Network-on-Chip(NoC)显式执行，而非通过共享内存或缓存间接进行。这允许核间直接数据交换，不消耗片外内存或共享缓存的带宽，同时为软件优化数据移动提供了更大的空间。
- 支持块浮点格式，其中16个相邻元素共享一个公共指数。这在不对精度产生显著影响的情况下，将内存占用和带宽需求减少了约一半。
集群架构
- 每个芯片配备内置Ethernet接口，使连接的两个芯片之间能够以低延迟、无需CPU干预的方式直接传输数据。
- 多个芯片通过环形网络互连，无需复杂的交换网络（类似于Google的TPU集群方式）。环形网络有利于典型AI工作负载的通信模式。
软件架构
- 我们提供推理框架，可跨多个节点和芯片执行分布式推理，将它们作为单一统一端点呈现；以及训练框架，使多个节点和芯片可作为单个PyTorch设备运行。
- 数据分发、任务分配和芯片间通信由软件自动化。因此，尽管与GPU集群相比芯片数量增加，但整体基础设施更易于使用，工作负载被分配以实现通过环形网络的高效通信。

详细内容请参阅PDF文件。

Moreh-Tenstorrent AI 数据中心解决方案系统架构

概述