新聞集錦
- 英特爾廣泛的HPC和AI產品組合提供具競爭力的效能,Intel® Data Center GPU Max系列1550在一系列科學工作負載上的表現,相較NVIDIA H100平均高出30%。1
- 產品路線圖更新聚焦在Granite Rapids,這是一款解決記憶體頻寬需求的次世代CPU,Falcon Shore則可以滿足不斷成長、多樣化的HPC和AI工作負載需求。
- 美國阿貢國家實驗室和英特爾共同宣布完整的Aurora超級電腦規格、系統里程碑以及與Hewlett Packard Enterprise(HPE)和合作夥伴的國際倡議,為科學和社會帶來生成式AI和大型語言模型(LLM)的力量。
- 強化oneAPI和AI工具,協助開發者加快HPC和AI工作負載的速度,並提升程式碼跨多個架構上的可攜性。
英特爾在2023年國際超級電腦大會(ISC High Performance)上,展示高效能運算(HPC)和人工智慧(AI)工作負載的領先效能,並分享以oneAPI開放式程式設計模型為中心的未來HPC和AI產品;同時也宣布一項國際計畫,利用Aurora超級電腦為科學和社會開發生成式AI模型。
更多內容:2023年國際超級電腦大會(引言表)
英特爾公司副總裁暨超級運算事業部總經理Jeff McVeigh表示:「英特爾致力為HPC和AI社群提供產品服務,協助客戶和終端使用者能夠更快達成突破性的發展。我們的產品組合橫跨Intel® Xeon® CPU Max系列、Intel® Data Center GPU Max系列、第4代Intel® Xeon®可擴充處理器和 Habana® Gaudi®2,於多項工作負載表現均優於競爭對手,提供能源和總擁有成本優勢,讓AI民主化的同時,還提供選擇性、開放性和靈活性。」
大規模硬體效能提升
在英特爾的特別演說中,McVeigh聚焦於橫跨硬體範疇的最新、具競爭力的效能結果,並與客戶分享強勁的態勢。
- Intel Data Center GPU Max系列在多樣化的工作負載表現,比NVIDIA H100 PCIe卡平均高出30%1,獨立軟體供應商Ansys則展示在AI加速HPC應用上,Max系列GPU相較H100更快50%。2
- Xeon Max系列CPU是唯一具備高頻寬記憶體的x86處理器,在High Performance Conjugate Gradients(HPCG)基準測試當中,比AMD的Genoa處理器提升65%1,且耗電量更少。高頻寬記憶體已被視為HPC客戶最需要的功能之一。3
- 在HPC當中應用最廣的第4代Intel Xeon可擴充處理器,比AMD的Milan平均速度提升50%4,能源公司BP的最新第4代Intel Xeon HPC叢集,比起前一代處理器的效能提升8倍,並改善了能源效率。2
- Gaudi2深度學習加速器在深度學習訓練和推論方面的表現頗具競爭力,其效能比NVIDIA A100快2.4倍。1
英特爾客戶近日公開使用第4代Intel Xeon和Max系列處理器的新安裝部署:
- 日本京都大學正在為Laurel 3和Cinnamon 3部署第4代Xeon,並為Camphor 3部署Xeon Max系列處理器。
- 義大利Cineca部署使用第4代Intel Xeon處理器的Leonardo。
- 美國羅徹斯特大學-雷射能量學實驗室正在部署使用第4代Xeon處理器的叢集。
- 阿根廷國家氣象局將部署一款同時包含Max系列CPU和GPU的系統。
此外,英國劍橋大學的Cambridge Open Zettascale實驗室已在英國部署首個Max GPU測試平台,並於分子動力學和生物成像應用方面看到正向的早期成果。日本理化學研究所(RIKEN)也宣布與英特爾簽屬合作備忘錄(MOU),將專注於AI、HPC和量子運算等先進運算技術領域,加速聯合研究與開發。作為合作備忘錄的其中一項內容,理化學研究所還將與英特爾晶圓代工服務合作,打造這些全新解決方案的原型。
為各項工作負載提供具有競爭力的處理器
動態、新興的HPC和AI工作負載需要一個完整的硬體與軟體解決方案產品組合。McVeigh綜述英特爾的各項資料中心產品,這些產品為HPC社群提供許多選擇和解決方案,協助實現AI民主化。
McVeigh在演說中介紹英特爾的次世代處理器,將能夠滿足高記憶體頻寬需求。英特爾所引領的生態系為Granite Rapids開發一款新型DIMM-Multiplexer Combined Ranks(MCR)。MCR在DDR5的基礎上達成8,800MT/s速度,在雙插槽系統中實現大於1.5TB/s的記憶體頻寬能力。提升此類的記憶體頻寬,對於滿足現代CPU快速成長的核心數量,以及實現效率和靈活性而言十分重要。
英特爾還公開Supermicro推出的新款、針對AI最佳化的x8 Max系列GPU子系統,專為加速深度學習訓練而設計。除了今年稍晚可透過Intel® Developer Cloud beta使用該系統之外5,多家OEM將提供包含Max系列GPU x4和x8 OAM子系統和PCIe卡的解決方案,這些解決方案預計於今夏上市。
英特爾的次世代Max系列GPU-Falcon Shores,能夠為客戶提供靈活性,實現系統級的CPU和獨立GPU組合,以因應未來新興且快速變化的工作負載。Falcon Shores使用模組化、晶片磚架構,其特色如下:
- 支援HPC和AI資料格式,從FP64到BF16再到FP8。
- 支援最高達288GB的HBM3記憶體,總頻寬最高達9.8TB/s,大幅度提升高速I/O。
- 能夠使用CXL程式設計模型。
- 透過oneAPI提供統一的GPU程式設計介面。
用於科學領域的生成式AI
美國阿貢國家實驗室與英特爾和HPE合作,宣布計畫為科學研究社群建立一系列生成式AI模型。
美國阿貢國家實驗室副實驗室主任Rick Stevens表示:「該計畫旨在充分汲取Aurora超級電腦的全部潛力,藉此產出可用於能源部實驗室以及與其它單位合作,以便進行後續科學研究的資源。」
這些用於科學的生成式AI模型,將使用一般文字、程式碼、科學文本,以及來自生物學、化學、材料科學、物理學、醫學和其它來源的結構化科學資料進行訓練。
由此產生的模型(多達1兆個參數)將被用在各式各樣的科學應用,其中包含分子和材料設計,並從數百萬個來源綜合知識,提出系統生物學、高分子化學與能源材料、氣候科學、宇宙學等領域的新奇實驗。該模型還會用於加速辨識癌症和其它疾病有關的生物過程(biological process),並提出藥物設計目標。
阿貢實驗室正在帶領國際合作、推進計畫,合作夥伴包含英特爾、HPE、美國能源部實驗室、美國與國際間的大學、非營利組織以及日本理化學研究所等國際合作夥伴。
此外,英特爾和阿貢實驗室亦說明Aurora的安裝進度、系統規格和早期效能結果:
- 英特爾已完成Aurora超級電腦的實體交機,共計超過10,000台刀鋒伺服器。
- 使用HPE Cray EX超級電腦建構完整的Aurora系統,將有63,744個GPU、21,248個CPU以及1,024個儲存節點。並且將使用HPE Slingshot高效能乙太網路。
- 早期測試結果顯示,於真實世界的科學和工程工作負載具有領先的效能表現,可高達AMD MI250 GPU效能的2倍,在QMCPACK量子力學應用比H100提升20%;擴展至數百個節點時,其效能增加比例接近線性提升。2
Aurora預計在今年推出時,可提供超過2 exaFLOPS的峰值雙精度運算效能。
oneAPI實現高生產力、開放的加速運算
全球約有90%的開發者,使用或是受益於為英特爾開發或最佳化的軟體。6自2020年推出oneAPI程式設計模型以來,開發者已在來自多個硬體供應商,不同的CPU、GPU、FPGA和AI晶片上展示oneAPI,解決單一供應商把持加速程式設計模型的挑戰。最新的Intel® oneAPI透過OpenMP GPU卸載進而加速HPC應用,延伸支援OpenMP和Fortran,並透過最佳化框架來加速AI深度學習,包含TensorFlow、PyTorch以及相關AI工具,讓效能獲得數個量級的提升。
為了讓程式設計師更容易開發oneAPI多架構程式,oneAPI實作SYCL,並由Codeplay開發針對NVIDIA和AMD處理器的外掛程式,以及Intel® DPC++相容性工具(使用開放原始碼SYCLomatic);這款工具可以將CUDA轉換至SYCL和C++,一般而言可自動轉換90%〜95%程式碼。7透過這種方式產生的SYCL程式碼,可比擬在NVIDIA和AMD原生系統語言上執行相同程式碼的效能。資料顯示,於Max系列GPU執行DPEcho天文物理學應用SYCL程式碼,其效能相較在NVIDIA H100執行同樣的CUDA程式碼更高出48%。1
擁抱SYCL的生態系正在蓬勃發展。Atos旗下的Eviden宣布與英特爾合作推出CEPP one+,這是一款使用Eviden卓越效能程式設計中心(CEPP)的HPC∕AI程式碼現代化服務。CEPP one+將專注接納SYCL和OpenMP,為社群做好異質運算環境的準備,同時透過開放標準提供硬體選擇的自由。
Disclaimers and configuration:
1 Visit the International Supercomputing Conference (ISC’23) page on intel.com/performanceindex for workloads and configurations. Results may vary.
2 Intel does not control or audit third-party data. You should consult other sources to evaluate accuracy.
3 Hyperion Research HPC Market Update, Nov. 2022.
4 Intel® Xeon® 8480+ has 1.5x higher geomean HPC performance across 27 benchmarks and applications than AMD EPYC 7763. Results may vary.
5 The Intel Developer Cloud beta is currently available to select prequalified customers.
6 According to Intel estimates.
7 Intel estimates as of March 2023. Based on measurements on a set of 85 HPC benchmarks and samples, with examples like Rodinia, SHOC, PENNANT. Results may vary.
Performance varies by use, configuration and other factors. Performance results are based on testing as of dates shown in configurations and may not reflect all publicly available updates. No product or component can be absolutely secure.
Your costs and results may vary.
Intel technologies may require enabled hardware, software or service activation.
Statements in this document that refer to future plans or expectations are forward-looking statements. These statements are based on current expectations and involve many risks and uncertainties that could cause actual results to differ materially from those expressed or implied in such statements. For more information on the factors that could cause actual results to differ materially, see our most recent earnings release and SEC filings at www.intc.com.