TACC 執行關鍵 HPC 程式碼更快

Intel® Xeon® Max 系列 CPU 的科學應用程式展現 Frontera 的增強,及記憶體頻寬限制程式碼的提升。

概覽:

  • 德州先進運算中心(TACC)是頂尖的超級運算設施,旨在為美國學術研究人員提供服務。

  • TACC 在計畫替換 Stampede2 系統時,對於科學程式碼在採用高頻寬記憶體(HBM)的 Intel® Xeon® Max 系列 CPU 上的運算效能進行了評估。

author-image

作者

執行摘要

2023 年 7 月,位於德州大學奧斯汀分校的德州先進運算中心(TACC)宣布美國國家科學基金會(NSF)已經授予該機構 1,000 萬美元的資助,為 Stampede3 超級電腦購置新硬體,以支援美國各地的學術研究。

十多年來,Stampede 系統一直是 NSF 學術超級運算生態系統的旗艦級系統。Stampede3 將包含下列項目:

 

  • 全新的 4 Petaflop 功能系統可進行高階模擬運算,採用建置於 Intel® Xeon® Max 系列 CPU 並搭配高頻寬記憶體的 560 個節點來提供支援。這些節點新增近 63,000 個核心,為規模最大、亟需效能的運算工作提供服務。
  • 全新的 GPU/人工智慧(AI)子系統包括 10 部 Dell PowerEdge XE9640 伺服器,搭載 40 組 Intel® Data Center GPU Max Series,可用於 AI/機器學習(ML)和其他適用 GPU 的應用程式。
  • 重新整合 224 組第 3 代 Intel® Xeon® 可擴充處理器節點,以及 Stampede2 現有超過 1000 個的 Intel® Xeon® 可擴充處理器,以支援更高記憶體用量的應用程式。這些處理器將支援高輸送量運算、互動式工作負載和其他較小的工作負載。
  • 新增 Cornelis Networks 全新的 Omni-Path Express 400 Gb/s 網狀架構技術,提供 24TB/s 背板頻寬。全新網狀架構提供高效能的互聯能力,為應用程式實現超低延遲和出色的可擴充性,並為 I/O 子系統帶來高效連線能力。PowerEdge C6620 伺服器和 XE9640 伺服器將安裝到
  • 全新設計的 Dell Technologies DLC7000 機架,支援對每個 CPU 和 GPU 的直接液態冷卻系統,提供接近自然室溫的溫度。
  • Dell Technologies 網路將成 Stampede3 的管理平台。

「我們相信 Xeon MAX CPU 節點的高頻寬記憶體,將有助於實現更優異的效能,勝過使用者以往所見過的任何 CPU。」—TACC 總監 Dan Stanzione

Stampede3 總計將包含 1,858 個運算節點、超過 140,000 個 Intel 核心、超過 330 TB 的 RAM、13 PB 的全新儲存裝置,以及接近 10 Petaflops 的峰值能力。所有元件都將整合至相同的網狀架構、檔案系統和配置。

TACC 主管 Dan Stanzione 表示:「我們相信 Intel Xeon Max 系列 CPU 節點的高頻寬記憶體,將有助於實現更優異的效能,勝過使用者以往所見過的任何 CPU。相較於 Stampede2 中現有的第 2 代和第 3 代 Intel Xeon 處理器節點,它們單個核心能夠提供超過兩倍的記憶體頻寬效能。」

採用 Intel Xeon Max 系列 CPU 的社群地球系統模型(Community Earth System Model)使用 DDR5,比 TACC 的 Frontera 超級電腦還要快 2.5 倍;程式碼相較於在純 HBM 模式的 Intel Max 系列 CPU 效能進一步提升 30%。1

挑戰

TACC 是美國領先的超級運算設施,對象為學術研究人員。該中心不斷致力於追求下一代的運算能力,以持續為科學所面臨的重大挑戰提供支援。使用 Intel/Dell Technologies 系統的 Stampede2 系統,是美國學術 HPC 社群的主力系統。當 TACC 計畫替換該系統時,對於科學程式碼在 Intel® Xeon® Max 系列 CPU 上的執行效能進行了評估,這是具備高頻寬記憶體(HBM)的處理器家族。

HBM 是 GPU 崛起的關鍵因素之一。它在 2020 年和 2021 年的 Fugaku 超級電腦世界排名前 500 名的第 1 名也發揮了重要作用,其中就包含了採用 HBM 技術的處理器。Intel Xeon Max 系列 CPU 是首款整合 HBM 的 x86 CPU。

為了評估全新處理器的效能,TACC 使用了大量真實世界的 HPC 應用程式,這些應用程式是 NSF 所資助的特徵科學應用程式(CSA)計畫的一環。TACC 透過 CSA 計畫與研究人員合作,為領袖級運算設施(LCCF)準備科學應用程式,該設施將負責代號為地平線(Horizon)的機構旗艦級超級電腦,並預計在 2026 年完成。這些應用程式是由大規模的科學運算使用者社群所選出。它們反映了廣泛的科學領域和運算方法,從語言、方法到工作流程,包含了研究人員將在未來的超級電腦上執行的項目。

表 1.特徵科學應用程式(CSA)和天氣研究與預測(WRF)程式碼效能評定的清單。

解決方案

TACC 研究人員在 Intel Xeon Max 系列 CPU 上針對 13 個 CSA 程式碼和天氣研究與預測(WRF) 程式碼進行了效能評定。表 1 列出了使用的程式碼。同樣的程式碼也在採用第 2 代 Intel® Xeon® 處理器的 Frontera 上進行效能評定,這是 TACC 最強大的運算系統,在 2023 年 6 月時,於前 500 名清單中名列 21 位。

Intel Xeon Max 系列 CPU 能夠採用不同模式來執行,包括純 HBM 模式,和關閉 HBM 僅依賴 DDR5 的均一模式。TACC 測試了 Intel Xeon Max 系列 CPU 這兩種記憶體模式的效能,以瞭解 HBM 相較於 DDR5 的效能特性和優勢。Intel Xeon Max 系列 CPU 在兩種模式下都實現了顯著的效能提升,特別是受到記憶體頻寬限制的應用程式。

3D 地震程式碼滯彈性波傳遞(Anelastic Wave Propagation)程式碼在 Intel Max 系列 CPU 上執行,相較於 Frontera 快了 3.7 倍,搭配 HBM 提升了 100%。1

成果

相較於 TACC Frontera 超級電腦採用的第 2 代 Intel Xeon 處理器,這兩種模式都實現了效能大幅提升。例如,僅使用 DDR5 記憶體時,程式碼執行速度平均比先前版本快 2 倍。1 不過,對於大規模的平行處理、資料密集和記憶體頻寬受限的問題,採用 HBM 的Intel Xeon Max 系列 CPU 表現更加出色,平均速度提升了 2.6 倍。1

採用 HBM 的 Intel Xeon Max 系列 CPU 相較於僅使用 DDR5 執行程式碼時 有超過三分之一的程式碼效能提升了 50% 以上。部分程式碼在加入 HBM 後,效能提升高達 2 倍。

TACC HPC 總監 John Cazes 表示:「全新的 Intel Xeon Max 系列 CPU 的核心數量恰好是第 2 代 Intel Xeon 處理器的兩倍,因此我預期效能將至少提升兩倍。不過採用 HBM 後,其效能提升了 2.6 倍,這是相當大的倍增。它具備充足的記憶體頻寬,使 Intel Xeon Max 系列 CPU 的核心無法用滿 HBM 所提供的記憶體頻寬。就 CPU 而言,這是非常罕見的問題。」

氣候預測、材料探索、宇宙模型……一切都更快

經過評估的 14 個應用程式,皆為大型國際實驗的軟體,例如 IceCube Neutrino Observatory,此軟體程式碼廣泛用於地震和天文物理學社群,並可自訂程式碼來進一步探索創新方法,以進行機器學習與黑洞模型製作。請參考圖 1。

圖 1。特徵科學應用程式(CSA)與天氣研究與預測(WRF)程式碼的標準化效能比較。1

效能亮點

有一項透過 HBM 顯著提升效能的程式碼,是使用特殊設定的社群地球系統模型(CESM),這是由 NSF 贊助、科羅拉多大學所領導的 EarthWorks 計劃,旨在以超高解析度來研究季節性的天氣與氣候現象。CESM 是地球科學社群使用的主要氣候程式碼之一。CESM 是由國家大氣研究中心(NCAR)與研究社群合作開發及維護。CESM 的 EarthWorks 設定相較於在 Frontera,在採用 DDR5 的 Intel Xeon Max 系列 CPU 上效能提升 2.5 倍;1 程式碼效能在純 HBM 模式下更進一步提升 30%(提升至 3.2 倍)。1

EarthWorks 設定的開發者之一,科羅拉多州立大學教授 David Randall 表示:「利用新技術的強大力量,將使我們能開發全球風暴解析模型,協助我們更瞭解氣候變化帶來的風險。2.5 倍至 3 倍的加速,代表我們可以更快找到答案,或是進一步提高模型的解析度和準確度。」

相較於 Frontera 的 CPU,在採用 DDR5 的 Intel Xeon Max 系列 CPU 處理器上,天氣研究與預測模型(WRF)的速度提升 2.09 倍。在採用 HBM 的 Intel Xeon Max 系列 CPU 上,WRF 的執行速度比第 2 代 Intel Xeon 處理器快 3.5 倍,比 DDR5 加快 70%。1

天氣研究與預測模型(WRF)是另一種最先進的數值天氣預測系統,專為大氣研究與天氣實用預測應用程式所設計。WRF 在採用 DDR5 的 Intel Xeon Max 系列 CPU 處理器上,相較於 Frontera 的 CPU,執行速度提升了 2.09 倍。1 在採用 HBM 的 Intel Xeon Max 系列 CPU上,WRF 的執行速度比第 2 代 Intel Xeon 處理器快 3.5 倍,比 DDR5 加快 70%。1

在 Intel Xeon Max 系列 CPU 兩種記憶體模式中都表現出卓越效能的另一個程式碼,是 3D 地震程式碼滯彈性波傳遞(AWP)。此程式碼是由聖地牙哥超級計算機中心的 Yifeng Cui 開發。相較於 Frontera,此程式碼在 Intel Xeon Max 系列 CPU 上的執行速度提升 3.7 倍,搭配 HBM 提升了 100%。1

對於尚未最佳化以利用 HBM 的應用程式,Cazes 認為 Intel Xeon Max 系列 CPU 的出現,將會引領程式碼與演算法的變化。

Stanzione 表示:「我們相信 Intel Xeon Max 系列 CPU 節點的高頻寬記憶體,將有助於實現更優異的效能,勝過使用者以往所見過的任何 CPU。相較於 Stampede2 中現有的第 2 代和第 3 代 Intel Xeon 處理器節點,它們單個核心能夠提供超過兩倍的記憶體頻寬效能。我們很期待能部署 Stampede3 作為國家網路基礎建設中的下一個高效能與高容量 HPC 系統,提供給美國所有科學研究計畫使用。」

無需修改程式碼

在尋找全新 CPU 架構時,移植程式碼始終是考量之一。開發和最佳化程式碼所需的時間與精力,會減少科學工作可用的週期。對於許多小型團隊而言,要將複雜、多相依性的舊程式碼移植到 GPU 上非常困難。

「因為我們有相同的系統程式庫,因此我能將在 Frontera 上執行的二進位檔案提取並放到 Intel Xeon Max 系列 CPU 上執行,而它們恰好能正常運作。」—TACC HPC 總監 John Cazes

這讓 TACC 團隊能輕鬆評估及比較科學程式碼的效能。將程式碼從 Frontera CPU 移植至最新一代 Intel 資料中心處理器,幾乎無需修改任何程式碼。這對於科學家已經為 x86 處理器最佳化的數千筆程式碼和數十億條科學軟體程式行而言,非常有益。

TACC HPC 主管 John Cazes 表示:「因為我們有相同的系統程式庫,因此我能將在 Frontera 上執行的二進位檔案提取並放到 Intel Xeon Max 系列 CPU 上執行,而它們恰好能正常運作。」這也呼應了其他早期客戶的觀點,包括洛斯阿拉莫斯國家實驗室(Los Alamos National Laboratory)Numenta 的研究人員。

這些程式碼在最新的 Intel Xeon 處理器上的效能令人讚嘆。除了效能外,能夠輕鬆將程式碼從 Frontera 直接應用在最新的 CPU,讓研究人員無需額外工作即可更快獲得成果。

總結

評估了 13 個 CSA 程式碼和 WRF 後,TACC 的評估結果顯示相較於 Frontera,採用同時使用 DDR5 和純 HBM 模式的 Intel Xeon Max 系列 CPU 的效能有顯著提升。最有趣的是在 Intel Xeon Max 系列 CPU 上執行時,許多程式碼都能從 HBM 獲益。科學家無需花費時間將程式碼移植到不同系統和 CPU 上,也帶來另一種形式的加速。

Stanzione 表示:「在 HPC 和 AI 領域中,加速器與 GPU 的使用無疑正在興起,但尚不清楚高頻寬記憶體能否帶來重要的優勢。我們同樣需要高效能的 CPU,而根據我們的評測基準,Intel Xeon Max 系列 CPU 將為使用者提供明顯的優勢。」

Intel Xeon Max 系列 CPU 的效能優勢

以下是一些 TACC 所觀察到,程式碼在新的 Intel Xeon Max 系列 CPU 上執行的效能範例:

 

  • CESM 的 EarthWorks 設定相較於在 Frontera,在採用 DDR5 的 Intel Xeon Max 系列 CPU 上效能提升 2.5 倍;1
    程式碼效能在純 HBM 模式下更進一步提升 30%(提升至 3.2 倍)。1
  • 3D 地震程式碼滯彈性波傳遞(AWP)在 Intel Xeon Max 系列 CPU 上的效能比 Frontera 提升了 3.7 倍,搭配 HBM 提升了 100%。1

重點:

  • TACC 選用搭載 Intel Xeon Max 系列 CPU 的 Dell PowerEdge C6620 伺服器,和搭載 Intel Data Center GPU Max Series 的 Dell PowerEdge XE9640 伺服器,來作為其全新的 Stampede3 超級電腦,這部超級電腦將提供接近 10 Petaflops 的峰值能力。
  • 這些選擇是根據 14 個主要 HPC 程式碼,在最新的 Intel Xeon Max 系列 CPU 上執行的效能評估所決定。
  • 在 Intel Xeon Max 系列 CPU 上的執行速度平均提升 2.6 倍1(採用高頻寬記憶體模式)。
  • 新的子系統採用 40 個 Intel Data Center GPU Max Series,可用於 AI、ML 和適用 GPU 的應用程式。

 

下載 PDF ›