‹ Back to Blog
Technical Report
Moreh-Tenstorrent AI 데이터 센터 솔루션 시스템 아키텍처
November 18, 2025
이 문서는 AI를 통해 자동 번역되었습니다. 어색하거나 부정확한 내용이 있을 수 있으니, 필요한 경우 영어 원문을 참고해 주세요. 영어 원문 보기
PDF로 전체 기술 보고서 보기
개요
Moreh의 미션은 고도의 소프트웨어 기술을 통해 AI 데이터 센터에서 NVIDIA GPU의 대안을 제공하는 것입니다. 이러한 노력의 일환으로, 우리는 Tenstorrent와 긴밀히 협력하고 있으며 2025년 4분기에 데이터 센터 솔루션을 출시할 예정입니다. 전설적인 반도체 아키텍트 Jim Keller가 이끄는 Tenstorrent는 네트워크 통합 AI 칩을 통해 확장 가능한 하드웨어를 제공합니다. 이 위에 Moreh는 다수의 칩을 효율적으로 활용하기 위한 고유한 클러스터 아키텍처와 소프트웨어를 추가하여 풀스택 솔루션을 완성합니다. 이것이 AI 데이터 센터의 총소유비용(TCO)을 최소화하는 최선의 선택이라고 확신합니다.
이 글에서는 우리가 제공하는 Tenstorrent 솔루션의 아키텍처를 설명합니다. 우리의 접근 방식, 칩 아키텍처, 클러스터 아키텍처, 소프트웨어 아키텍처는 기존 NVIDIA GPU 및 DGX 시스템과 근본적으로 차별화됩니다. 이를 통해 대규모 AI 인프라를 어떻게 최적화하는지 설명합니다. 아래는 우리의 차별화 요소를 요약한 것입니다:
- 접근 방식
- GPU에 비해 더 많은 수의 경량 칩을 사용하여, 개별 칩 수준이 아닌 클러스터 수준에서 고성능과 효율성을 달성합니다.
- 이를 실현하기 위해서는 확장 가능한 네트워크 아키텍처와 다수의 칩을 효율적으로 활용할 수 있는 소프트웨어가 필수적입니다.
- 개별 칩에 극도로 높은 성능이 필요하지 않으므로, 구형 공정 노드(예: 6 nm 또는 12 nm)로 제작하고 HBM 대신 GDDR 메모리를 사용할 수 있어 전체 비용 효율성을 극대화합니다.
- 칩은 추론에만 국한되지 않으며 학습과 추론 모두에 사용할 수 있습니다. 이는 대규모 AI 데이터 센터에서 새로운 유형의 프로세서를 도입할 때 중요한 요소입니다.
- GDDR 메모리와 일반적으로 이용 가능한 패키징 기술을 사용함으로써 공급업체 다양성을 높이고 공급망의 회복력을 강화합니다.
- 칩 아키텍처
- 코히런트 공유 캐시와 같은 복잡한 하드웨어 관리 메모리 계층 대신, 대용량 소프트웨어 관리 SRAM(코어당 약 1.5 MB)을 채택합니다. 적절한 소프트웨어 지원을 통해 오프칩 메모리 대역폭 요구 사항을 최소화할 수 있습니다.
- 칩 내 코어 간 통신은 공유 메모리나 캐시를 통해 간접적으로 수행되는 것이 아니라, 2D 토러스 Network-on-Chip(NoC)을 통해 명시적으로 수행됩니다. 이를 통해 오프칩 메모리나 공유 캐시의 대역폭을 소비하지 않고 코어 간 직접 데이터 교환이 가능하며, 소프트웨어가 데이터 이동을 최적화할 수 있는 여지를 더 많이 확보합니다.
- 16개의 인접 요소가 공통 지수를 공유하는 블록 부동소수점 형식을 지원합니다. 이를 통해 정확도에 큰 영향을 주지 않으면서 메모리 사용량과 대역폭 요구 사항을 약 절반으로 줄일 수 있습니다.
- 클러스터 아키텍처
- 각 칩에는 내장 Ethernet 인터페이스가 장착되어 있어, 연결된 두 칩 간에 낮은 지연 시간으로 CPU 개입 없이 직접 데이터 전송이 가능합니다.
- 복잡한 스위치 네트워크 없이 토러스 네트워크를 통해 여러 칩이 상호 연결됩니다(Google의 TPU 클러스터링 방식과 유사). 토러스 네트워크는 일반적인 AI 워크로드의 통신 패턴에 유리합니다.
- 소프트웨어 아키텍처
- 여러 노드와 칩에 걸쳐 분산 추론을 수행하여 하나의 통합 엔드포인트로 제공하는 추론 프레임워크와, 여러 노드와 칩이 단일 PyTorch 디바이스로 동작할 수 있게 하는 학습 프레임워크를 제공합니다.
- 데이터 분산, 태스크 할당, 칩 간 통신은 소프트웨어에 의해 자동화됩니다. 따라서 GPU 클러스터에 비해 칩 수가 증가하더라도 전체 인프라 활용이 더 쉬워지며, 토러스 네트워크를 통한 효율적인 통신이 가능하도록 워크로드가 분배됩니다.
자세한 내용은 PDF 파일을 참조하세요.