最新MLCommons測試結果 突顯英特爾在競爭激烈的AI領域取得重大進展

Habana Gaudi2和第4代Intel Xeon可擴充處理器  在AI訓練方面提供領先的效能和最佳的成本

新聞

  • 2023 年 6 月 27 日

  • 聯絡 Intel PR

  • 關注社群媒體的 Intel 新聞室:

    Twitter 標誌
    YouTube 圖示

author-image

作者

MLCommons於美國當地時間本月27日公布業界AI效能基準測試MLPerf Traning 3.0的結果,其中Habana® Gaudi®2深度學習加速器和第4代Intel® Xeon®可擴充處理器,均取得優異的訓練結果。

「MLCommons所公布的最新MLPerf結果,驗證了Intel Xeon處理器和Intel Gaudi深度學習加速器在AI領域帶給客戶的TCO(Total Cost of Ownership)價值。Xeon內建加速器是在通用處理器上執行大量AI工作負載的理想解決方案,Gaudi則在大型語言模型和生成式AI方面提供具競爭力的效能。英特爾的可擴展系統搭配最佳化、易於程式設計的開放式軟體,降低了客戶和合作夥伴於資料中心部署各類雲端到智慧邊緣AI解決方案的門檻。」

– Sandra Rivera,英特爾執行副總裁暨資料中心與AI事業群總經理

為何重要:業界傳聞生成式AI和大型語言模型(LLM)僅能在NVIDIA GPU上執行。新資料顯示,英特爾的AI解決方案產品組合,為希望擺脫限制效率和規模的封閉生態系的客戶,提供極具競爭力的選項。

最新的MLPerf Traning 3.0結果,突顯出英特爾產品在一系列深度學習模型上的效能。以Gaudi2為基礎的軟體和系統,其訓練成熟度在大型語言模型GPT-3上獲得大規模的證實。在僅有兩款提交GPT-3 LLM訓練基準測試效能結果的半導體解決方案當中,Gaudi2是其中之一。

Gaudi也為客戶提供極具競爭力的伺服器和系統成本優勢。該加速器在GPT-3、電腦視覺和自然語言模型上經過MLPerf驗證的效能,加上即將推出的軟體進展,讓Gaudi2相對於NVIDIA H100而言,在性價比上成為極具吸引力的選擇。

在CPU方面,搭載英特爾AI引擎的第4代Xeon處理器所展現出的深度學習訓練效能,讓客戶可以使用Xeon伺服器建構單一通用AI系統,用以資料預處理、模型訓練和部署,藉此提供AI效能、效率、準確性和可擴展性的正確組合。

Habana Gaudi2結果:訓練生成式AI和大型語言模型需要伺服器叢集來滿足大規模的運算需求,GPT-3是款具備1750億個參數的嚴苛模型,MLPerf結果確切驗證了Habana Gaudi2在GPT-3上的出色效能和高效擴展性。

成果亮點:
 

  • Gaudi2在GPT-31上達成令人印象深刻的訓練時間:384個加速器的訓練時間為311分鐘。
  • 在GPT-3模型上,從256個加速器增加至384個加速器的效能提升比例接近線性95%。
  • 電腦視覺-ResNet-50 8個加速器、Unet3D 8個加速器、自然語言處理-BERT 8個和64個加速器均取得優異的訓練結果。
  • 與去年11月提交的資料相較之下,BERT和ResNet模型的效能分別提升10%和4%,證明Gaudi2軟體日益成熟。
  • Gaudi2採用「開箱即用」的方式提交結果,意味著客戶在本地或是雲端部署Gaudi2時,均可獲得相當的效能結果。

Gaudi2軟體成熟度:Gaudi平台的軟體支援日益成熟,並與流行、越來越多的生成式AI和LLM需求保持同步。
 

  • Gaudi2的GPT-3提交結果使用PyTorch,並採用流行的DeepSpeed最佳化函式庫(大規模Microsoft AI的其中一部分),而非客製化軟體。DeepSpeed能夠同時支援3D並行(資料、張量、管線),進一步最佳化LLM的擴展效能效率。
  • Gaudi2的3.0基準測試提交結果使用BF16資料類型。預計於2023年第三季推出FP8軟體支援和新功能時,Gaudi2的效能將有顯著提升。

4Xeon處理器結果:作為眾多替代解決方案中唯一提交結果的CPU,MLPerf的結果證明Intel Xeon處理器為企業提供開箱即用的能力,讓企業可以在通用系統上部署AI,並避免導入專用AI系統的成本與複雜性。

對於少數從頭開始間歇性訓練大型模型的客戶而言,他們可以使用通用CPU進行訓練,且往往是透過已部署於日常業務營運的英特爾伺服器。然而,大多數人將使用預先訓練好的模型,並使用他們自己的小型資料集進行微調。英特爾先前發表的結果表示,透過英特爾AI軟體和標準業界開放原始碼軟體,這種微調作業能夠在短短幾分鐘內完成。

MLPerf成果亮點:
 

  • 在封閉分區,第4代Xeon可以分別在不到50分鐘(47.93分鐘)和不到90分鐘(88.17分鐘)的時間內,訓練BERT和ResNet-50模型。
  • 對於開放分區的BERT,當擴展至16個節點時,結果顯示Xeon能夠在大約30分鐘(31.06分鐘)的時間訓練模型。
  • 對於較大的RetinaNet模型,在16個節點上,Xeon能以232分鐘訓練完成,讓客戶可以靈活地在非尖峰時段運用Xeon訓練他們的模型,例如一個上午、午餐時間或是過夜進行。
  • 具備Intel® Advanced Matrix Extensions(Intel® AMX)的第4代Xeon,提供顯著的開箱即用效能提升,並涵蓋多個框架、端到端資料科學工具和廣泛的智慧解決方案生態系。

MLPerf被普遍認為是最具信譽的AI效能基準測試,能夠在各款解決方案之間進行公平且可重現的效能比較。此外,英特爾已達成突破百次提交結果的里程碑,且仍然是唯一透過業界標準深度學習生態系軟體來提交公開CPU結果的供應商。

這些結果還另外突顯出,當使用具成本效益和容易取得的Intel Ethernet 800系列網路介面卡時,能夠達成優秀的擴展效能;這些網路介面卡使用以Intel oneAPI為基礎的開源Intel® Ethernet Fabric Suite Software。

更多內容:MLPerf v3.0訓練的效能指標(基準測試結果)| MLCommons宣布

The Small Print:

The MLPerf test corpus consists of a 1% representative slice of the GPT-3 model.

Notices & Disclaimers

Performance varies by use, configuration and other factors. Learn more at www.Intel.com/PerformanceIndex.

Performance results are based on testing as of dates shown in configurations and may not reflect all publicly available updates. See backup for configuration details. No product or component can be absolutely secure.