Building Block

MoAI Fabric

ヘテロジニアスなチップとソフトウェア間でKVキャッシュを直接移動させるソフトウェア定義ファブリック — ベンダー、世代、並列化の境界を越えてprefill-decode分離(disaggregation)を本番運用で機能させます。

The Problem

KVキャッシュこそ、ヘテロジニアス化が破綻する箇所

現在の推論ソフトウェアスタックは、KVキャッシュの生産者と消費者が同一であることを前提としています。そうでない場合、KVキャッシュの転送はヘテロジニアスチップを効率的に活用する上で最大の障害となります。

GPU間の直接RDMAはベンダーに固定されています。異なるベンダーのチップ間でKVキャッシュバイトを移動するネイティブ経路は存在せず、CPUメモリを経由する非常に遅い迂回路しかありません。

異なるattention実装はKVテンソルをGPUメモリ上に異なる方法で配置します。生産者のバイトは、別のレイアウトを想定する消費者にはそのまま読み取れません。

異なる精度や量子化スキームは、同じ値を異なるビットパターンで符号化します。明示的な変換なしにバイトを移動すれば、無関係な数値になってしまいます。

異なる並列化戦略はKVキャッシュを複数のGPUに異なる方法で分割します。素朴な1:1のGPU間転送では、正しいデータを再構成できません。

Solution

MoAI Fabricは任意のベンダーのGPU間でKVキャッシュを直接移動させ、その途中でメモリレイアウト、データ型、量子化スキーム、並列分割を変換します。

GPU

Vendor A

GPU

Vendor B

KV Cache Compatibility

Cross-Vendor Direct RDMA

What It Enables

KVキャッシュの移動が同一のハードウェアとソフトウェアに縛られなくなることで、prefillとdecodeを独立して配置でき、それぞれの処理に最適なベンダー、世代、並列化を選択できます。

PrefillをNVIDIA GPUで、decodeをAMD GPUで(またはその逆で)実行できます。FabricはKVキャッシュをベンダー固有のフォーマット間で変換し、ネットワーク経由で直接転送するため、どちらのフェーズでも遅いCPU迂回やベンダーロックインは発生しません。

フェーズ間でGPU世代を組み合わせられます — 例えば、prefillにB300、decodeにH200。世代が違えばKVキャッシュフォーマットも異なることがありますが、Fabricが透過的に整合させるため、既存のインベントリも最新チップと共に活躍し続けられます。

レイテンシとスループットのSLOに応じて、prefillとdecodeそれぞれのGPU台数と並列化戦略を独立に選択できます。両フェーズが異なる規模で動作することによるKVキャッシュ分割の不一致はFabricが処理します。