Microsoft 於 Hot Chips 2024 會議揭示首款自家 AI 加速器 Maia 100,專為 Azure 平台設計,採用 HBM2E 記憶體技術

在最近舉行的 Hot Chips 2024 研討會上,Microsoft 公布了其首款專用 AI 加速器 Maia 100 的詳細資料,該加速器旨在處理其 Azure 平台上的大規模 AI 工作負載。

與競爭對手不同,Microsoft 選擇了較舊的 HBM2E 記憶體技術,並具備透過韌體更新「解鎖新功能」的能力。這一決策似乎是為了在性能與成本效率之間取得平衡。Maia 100 加速器是一個光罩尺寸的 SoC,建立於台積電的 N5 製程上,並配備 COWOS-S 中介層。它包含四個 HBM2E 記憶體晶圓,提供每秒 1.8TB 的帶寬和 64GB 的容量,專為高通量的 AI 工作負載而設計。該晶片設計支持高達 700W 的熱設計功耗(TDP),但設置為 500W,使其在同類產品中能效卓越。

報導指出,雖然 Maia 100 在性能上「不如 Nvidia H100」,但 Microsoft 的策略強調從定制伺服器板到專用機架以及設計用於增強 AI 能力的軟體堆疊的垂直集成架構。該架構包括一個高速度的張量單元和一個定制的向量處理器,支持多種數據格式並針對機器學習需求進行了優化。

此外,Maia 100 支持基於以太網的互連,帶寬可達 4800Gbps,並採用類似 RoCE 的協議進行可靠和安全的數據傳輸。

來自 ServeTheHome 的 Patrick Kennedy 在 Hot Chips 上報導了 Maia 100,指出:「這是一個 500W/700W 的設備,擁有 64GB 的 HBM2E,這確實很有趣。人們會期待它的性能不如 Nvidia H100,因為它的 HBM 容量較少。同時,它使用了相當多的功耗。在如今的功耗受限環境中,Microsoft 似乎必須能夠將此類產品的成本大大降低於 Nvidia 的 GPU。」

Maia SDK 簡化了部署流程,允許開發者以最小的代碼變更移植模型,支持 PyTorch 和 Triton 編程模型。這使得開發者能夠在不同硬體後端之間優化工作負載性能,而不會犧牲效率。

台灣上網卡推介|5 款比較|台北 淡水 桃園 即插即用 vs 實名登記

SIM Card HK 電話卡香港專門店