Moreh-Tenstorrent AI Data Center Solution System Architecture

概要

Morehのミッションは、高度なソフトウェア技術を通じてAIデータセンターにNVIDIA GPUの代替手段を提供することです。この取り組みの一環として、Tenstorrentと緊密に協力しており、2025年第4四半期にデータセンターソリューションを発表する予定です。伝説的な半導体アーキテクトであるJim Kellerが率いるTenstorrentは、ネットワーク統合AIチップによりスケーラブルなハードウェアを提供しています。その上にMorehが独自のクラスタアーキテクチャと多数のチップを効率的に活用するためのソフトウェアを追加し、フルスタックソリューションを完成させます。これがAIデータセンターの総所有コスト(TCO)を最小化する最善の選択肢であると確信しています。

この記事では、当社が提供するTenstorrentソリューションのアーキテクチャについて説明します。当社のアプローチ、チップアーキテクチャ、クラスタアーキテクチャ、ソフトウェアアーキテクチャは、従来のNVIDIA GPUおよびDGXシステムと根本的に差別化されています。これにより、大規模AIインフラストラクチャをどのように最適化するかを説明します。以下は当社の差別化要因の概要です：

アプローチ
- GPUと比較して、より多くの軽量チップを使用し、個々のチップレベルではなくクラスタレベルで高性能と効率性を実現します。
- これを実現するためには、スケーラブルなネットワークアーキテクチャと、多数のチップを効率的に活用できるソフトウェアが不可欠です。
- 個々のチップに極めて高い性能が必要ないため、旧世代のプロセスノード（例：6 nmまたは12 nm）で製造でき、HBMの代わりにGDDRメモリを使用できるため、全体的なコスト効率を最大化できます。
- チップは推論に限定されず、学習と推論の両方に使用できます。これは大規模AIデータセンターで新しいタイプのプロセッサを導入する際の重要な要素です。
- GDDRメモリと一般的に入手可能なパッケージング技術を使用することで、サプライヤーの多様性を高め、サプライチェーンの回復力を強化します。
チップアーキテクチャ
- コヒーレント共有キャッシュのような複雑なハードウェア管理メモリ階層の代わりに、大容量のソフトウェア管理SRAM（コアあたり約1.5 MB）を採用しています。適切なソフトウェアサポートにより、オフチップメモリ帯域幅の要件を最小化できます。
- チップ内のコア間通信は、共有メモリやキャッシュを介して間接的に行われるのではなく、2Dトーラス型Network-on-Chip(NoC)を通じて明示的に行われます。これにより、オフチップメモリや共有キャッシュの帯域幅を消費することなくコア間で直接データ交換が可能となり、ソフトウェアがデータ移動を最適化する余地がより多く生まれます。
- 16個の隣接要素が共通の指数を共有するブロック浮動小数点フォーマットをサポートしています。これにより、精度に大きな影響を与えることなく、メモリフットプリントと帯域幅の要件を約半分に削減できます。
クラスタアーキテクチャ
- 各チップには内蔵Ethernetインターフェースが装備されており、接続された2つのチップ間で低レイテンシかつCPU介入なしに直接データ転送が可能です。
- 複雑なスイッチネットワークを必要とせず、トーラスネットワークを通じて複数のチップが相互接続されます（GoogleのTPUクラスタリング方式と同様）。トーラスネットワークは、典型的なAIワークロードの通信パターンに有利です。
ソフトウェアアーキテクチャ
- 複数のノードとチップにわたって分散推論を実行し、それらを単一の統合エンドポイントとして提供する推論フレームワークと、複数のノードとチップを単一のPyTorchデバイスとして動作させる学習フレームワークを提供します。
- データ分散、タスク割り当て、チップ間通信はソフトウェアによって自動化されます。そのため、GPUクラスタと比較してチップ数が増加しても、全体的なインフラストラクチャの利用が容易になり、トーラスネットワークを通じた効率的な通信が可能なようにワークロードが分配されます。

詳細はPDFファイルをご参照ください。

Moreh-Tenstorrent AIデータセンターソリューション システムアーキテクチャ

概要

Moreh-Tenstorrent AIデータセンターソリューションシステムアーキテクチャ