英特爾打破專利限制,為企業生成式AI市場提供新選擇

延續Gaudi 2的效能和可擴充性,Intel Gaudi 3 AI加速器為全球企業提供生成式AI新選擇。

新聞

  • 2024年4月9日

  • 聯絡 Intel PR

  • 關注社群媒體的 Intel 新聞室:

    Twitter 標誌
    YouTube 圖示

author-image

作者

2024年4月9日-英特爾在Vision 2024大會上,宣布推出Intel® Gaudi® 3 AI加速器,與前代產品相比,Gaudi 3為BF16提供4倍AI運算能力、1.5倍記憶體頻寬以及2倍網路頻寬,可擴充大規模系統,將有助大型語言模型(LLM)和多模態模型的AI訓練和推理,大幅提升效能和生產力。Intel® Gaudi® 2 AI加速器是市場上 唯一通過MLPerf基準測試的LLM解決方案 ,效能和效率皆通過驗證。英特爾透過開源社群軟體和符合業界標準的乙太網絡,為客戶提供可靈活擴充系統的新選擇。

「AI市場瞬息萬變,但產品間仍存在巨大差距。不論是來自客戶還是更廣泛市場的回饋,皆反映對更多選擇的渴望。企業須權衡可用性、可擴充性、效能、成本和能源效率等因素。Intel Gaudi 3作為生成式AI的新選擇,憑藉性價比、系統可擴充性和時間成本優勢的完美結合脫穎而出。」

英特爾執行副總裁暨資料中心與AI解決方案總經理Justin Hotard表示。

金融、製造和醫療保健等關鍵領域的企業,目前正快速提升AI的普及化,並積極將生成式AI計畫從試驗階段轉為全面實施。為了因應轉型、推動創新並達成營收成長目標,企業需要開放、符合成本效益且更節能的解決方案和產品,以符合投資報酬率(ROI)和營運效率需求。

Intel Gaudi 3加速器將滿足這些需求,並透過開放社群軟體和開放標準的乙太網路,協助企業靈活擴充AI系統和應用。

客製化基礎架構如何提升生成式AI效能和效率: Intel Gaudi 3加速器專為高效的大規模AI運算打造,採用相較前一代產品更先進的5奈米製程。其設計允許同時啟動所有引擎以提升速度,包括矩陣乘法引擎(MME)、張量處理器核心(TPC) 和網路介面卡(NIC),進而實現更高速、高效的深度學習運算和規模擴充。Gaudi 3加速器的主要特點包括:

  • AI 專用運算引擎: Intel Gaudi 3加速器專為高效能、高效率的生成式AI運算所打造。每台加速器都有專屬的異質運算引擎,由64個AI自訂和可編程TPC和8個MME組成。每個Intel Gaudi 3 MME皆能執行64,000個平行運算,運算效率極高,並擅於處理複雜的矩陣運算,這也是深度學習演算法的基礎運算。此獨特的設計大幅提升平行AI運算的速度和效率,並支援多種資料類型,包括FP8和BF16。

  • 提升記憶體容量,滿足LLM容量需求: Intel Gaudi 3搭載128 GB的HBMe2記憶體容量、3.7 TB的記憶體頻寬和96 MB的on-board靜態隨機存取記憶體(SRAM),因此能夠在更少的Intel Gaudi 3上,提供處理大型生成式AI資料集所需的足夠記憶體,且特別適用於大型語言和多模態模型,有助於提升工作負載效能和資料中心的成本效率。

  • 為企業提供生成式AI高效系統擴充: 每個Intel Gaudi 3加速器皆整合24個200 Gb(Gigabit)的乙太網路連接埠,提供靈活的開放標準網路,實現高效擴充,以支援大型運算集,並克服專有網路架構的供應商限制。Intel Gaudi 3加速器實現單一節點到上千節點的高效擴充,以滿足生成式AI模型的廣泛要求。

  • 開放產業軟體提升開發人員生產力: Intel Gaudi 軟體整合PyTorch框架,並提供基於Hugging Face社群的最佳化模型,是目前生成式AI開發人員最常用的AI框架,使生成式AI開發人員能夠在高度抽象層上進行操作,提升易用性和生產力,並可輕鬆地將模型轉移到不同硬體類型上。

  • Gaudi 3 PCIe: Gaudi 3高速PCIe附加卡是全新產品,外型規格專為實現高效率並降低功耗設計,適用於微調、推理和檢索增強生成(RAG)等工作,配備功率600瓦的標準(Full-height )封裝,128GB的記憶體容量,且頻寬達到每秒3.7TB。

Intel Gaudi 3加速器將為領先生成式AI模型的訓練和推理,帶來顯著的效能提升。與Nvidia H100相比,Gaudi 3加速器的平均效能預期將為:

 

  • 在Llama2 7B和13B參數以及GPT-3 175B參數模型的訓練時間加快50%。
  • 在Llama 7B和70B以及Falcon 180B參數模型上,推論吞吐量提升50%2 , 推論能源效率提升40%3 。在較長的輸入和輸出序列中,具有更大的推理效能優勢。
  • 與Nvidia H200相比,在Llama 7B和70B以及Falcon 180B參數模型的推理速度提升30%4

 

Intel Gaudi 3加速器將於2024年第二季,向OEM提供通用基板和開放加速器模型(Open accelerator module, OAM)的業界標準配置。包含戴爾科技、慧與科技(HPE)、聯想和美超微等知名OEM,都將採用Gaudi 3。Intel Gaudi 3加速器預計於2024年第三季全面上市,Intel Gaudi 3 PCIe附加卡預計於2024年第四季上市。

Intel Gaudi 3加速器也將支援多個高成本效益LLM基礎架構,協助訓練和推理,並為包括NAVER在內的組織提供性價比優勢和選擇。

開發者從今日起即可存取Intel Developer Cloud上以Intel Gaudi 2為基礎的實例 以學習、建立原型、測試和執行應用程式與工作負載。

Intel Gaudi 3加速器的發展將為英特爾下一代針對AI和高效能運算的GPU Falcon Shores奠下基石。Falcon Shores將整合Intel Gaudi和Intel® Xe的智慧財產權(IP),以及建立在Intel® oneAPI規範的單一GPU可程式化界面。

 

The Small Print:

1 NV H100 comparison based on: https://developer.nvidia.com/deep-learning-performance-training-inference/training, Mar 28th 2024 à “Large Language Model” tab Vs Intel® Gaudi® 3 projections for LLAMA2-7B, LLAMA2-13B & GPT3-175B as of 3/28/2024. Results may vary

2 NV H100 comparison based on https://nvidia.github.io/TensorRT-LLM/performance.html#h100-gpus-fp8 , Mar 28th, 2024. Reported numbers are per GPU. Vs Intel® Gaudi® 3 projections for LLAMA2-7B, LLAMA2-70B & Falcon 180B projections. Results may vary.

3 NV comparison based on https://nvidia.github.io/TensorRT-LLM/performance.html#h100-gpus-fp8 , Mar 28th, 2024. Reported numbers are per GPU. Vs Intel® Gaudi® 3 projections for LLAMA2-7B, LLAMA2-70B & Falcon 180B Power efficiency for both Nvidia and Gaudi 3 based on internal estimates. Results may vary.

4 NV H200 comparison based on https://nvidia.github.io/TensorRT-LLM/performance.html#h100-gpus-fp8 , Mar 28th, 2024. Reported numbers are per GPU.Vs Intel® Gaudi® 3 projections for LLAMA2-7B, LLAMA2-70B & Falcon 180B projections. Results may vary.