微軟已宣布推出專為提升雲端人工智慧超級計算能力而設的新款 Azure 虛擬機 (VM)。
新的 H200 v5 系列虛擬機現已向 Azure 客戶普遍提供,將幫助企業應對日益繁重的人工智慧工作負載需求。這家科技巨頭透露,使用這款新系列虛擬機的用戶可以加速基礎模型的訓練和推斷能力。
根據微軟的部落格文章,新的虛擬機系列已經被許多客戶和合作夥伴用來推動人工智慧能力。“我們的 ND H200 v5 虛擬機的規模、效率及增強性能,已經促進了客戶和微軟人工智慧服務的廣泛採用,例如 Azure 機器學習和 Azure OpenAI 服務。”該公司表示。
根據 OpenAI 基礎設施負責人 Trevor Cai 的說法,OpenAI 便是這些客戶之一,正在利用新的虛擬機系列推動研究與開發,並對 ChatGPT 進行微調。“我們對 Azure 的新 H200 虛擬機感到興奮。”他表示,“我們發現 H200 的性能提升,僅需最小的移植工作,期待利用這些虛擬機加速我們的研究,改善 ChatGPT 使用體驗,並進一步推進我們的使命。”
Azure H200 v5 虛擬機的技術架構是基於微軟的系統方法,以“提升效率與性能”。這些虛擬機包含八個 Nvidia H200 Tensor Core GPU。微軟指出,這解決了企業用戶在計算能力方面日益增長的“缺口”。
隨著 GPU 的原始計算能力增長速度快於隨附記憶體及記憶體帶寬,這造成了人工智慧推斷與模型訓練的瓶頸。微軟在公告中指出:“Azure ND H200 v5 系列虛擬機提供了相對於之前一代 Azure ND H100 v5 虛擬機 76% 的高帶寬記憶體(HBM)增長,達到 141GB,並實現了 43% 的 HBM 帶寬增長,達到 4.8 TB/s。”
“這一帶寬增長使得 GPU 能更快地訪問模型參數,幫助減少整體應用程序的延遲,這對於如互動代理等即時應用程序而言是一項關鍵指標。” 此外,微軟表示,新的虛擬機系列還能在單個機器的記憶體中支撐更為複雜的大型語言模型(LLM),進而提高性能,並幫助用戶避免在多個虛擬機上運行分散式應用程序時產生高昂的開支。
微軟認為,在模型權重和批次大小方面對 GPU 記憶體的更佳管理也是新的虛擬機系列的一大區別點。目前 GPU 記憶體的限制會直接影響基於 LLM 的推斷工作負載的吞吐量和延遲,這也會給企業帶來額外成本。
透過更大 HBM 容量,H200 v5 虛擬機能支援更大的批次大小,微軟表示,與之前的版本相比,這將大幅提升 GPU 的利用率和吞吐量。“在早期測試中,我們觀察到與 ND H100 v5 系列相比,使用 ND H200 v5 虛擬機運行 LLAMA 3.1 405B 模型的推斷工作負載,吞吐量提高了最多 35%。(世界大小 8,輸入長度 128,輸出長度 8,最大批次大小 – H100 為 32,H200 為 96)”該公司指出。