在最近舉行的 Hot Chips 2024 研討會上,Microsoft 公布了其首款專用 AI 加速器 Maia 100 的詳細資料,該加速器旨在處理其 Azure 平台上的大規模 AI 工作負載。
與競爭對手不同,Microsoft 選擇了較舊的 HBM2E 記憶體技術,並具備透過韌體更新「解鎖新功能」的能力。這一決策似乎是為了在性能與成本效率之間取得平衡。Maia 100 加速器是一個光罩尺寸的 SoC,建立於台積電的 N5 製程上,並配備 COWOS-S 中介層。它包含四個 HBM2E 記憶體晶圓,提供每秒 1.8TB 的帶寬和 64GB 的容量,專為高通量的 AI 工作負載而設計。該晶片設計支持高達 700W 的熱設計功耗(TDP),但設置為 500W,使其在同類產品中能效卓越。
報導指出,雖然 Maia 100 在性能上「不如 Nvidia H100」,但 Microsoft 的策略強調從定制伺服器板到專用機架以及設計用於增強 AI 能力的軟體堆疊的垂直集成架構。該架構包括一個高速度的張量單元和一個定制的向量處理器,支持多種數據格式並針對機器學習需求進行了優化。
此外,Maia 100 支持基於以太網的互連,帶寬可達 4800Gbps,並採用類似 RoCE 的協議進行可靠和安全的數據傳輸。
來自 ServeTheHome 的 Patrick Kennedy 在 Hot Chips 上報導了 Maia 100,指出:「這是一個 500W/700W 的設備,擁有 64GB 的 HBM2E,這確實很有趣。人們會期待它的性能不如 Nvidia H100,因為它的 HBM 容量較少。同時,它使用了相當多的功耗。在如今的功耗受限環境中,Microsoft 似乎必須能夠將此類產品的成本大大降低於 Nvidia 的 GPU。」
Maia SDK 簡化了部署流程,允許開發者以最小的代碼變更移植模型,支持 PyTorch 和 Triton 編程模型。這使得開發者能夠在不同硬體後端之間優化工作負載性能,而不會犧牲效率。