執行摘要
京都大學(Kyoto U)在日本各地設有協作校園,在世界各地也成立了延伸學院,並設有運算與媒體學術中心(ACCMS)。ACCMS 支援運算與媒體的學術研究,並託管多個運算研究的高效能運算(HPC)系統。
ACCMS 運行的現有超級電腦於 2016 年安裝。調查人員使用的模擬程式碼與運算實務的研究與開發,歷年來不斷演變。許多程式碼都受限於現有高效能運算資源的記憶體頻寬。
經過兩年的技術研究、設計與招標,ACCMS 於 2023 年安裝三台全新超級電腦。新系統搭載最新一代的 Intel® Xeon® 處理器,可滿足使用者對平衡高效能運算基礎架構中高效能記憶體頻寬、大容量記憶體,和高平行效能的需求。
挑戰
「我們超級電腦的許多使用者都開發出自己的程式碼,而且模擬執行時間很長,」ACCMS 副教授 Keiichiro Fukazawa 說明。「我們大多數研究員執行的程式碼涉及電漿物理、分子動力學與流體動力學。其他使用者採用 ISV 應用程式,例如 Gaussian、LS-DYNA、ANSYS、Mathematica 等。」
Kyoto的Laurel 3 超級電腦搭載第 4 代 Intel® Xeon® 處理器,可執行商用軟體及其他使用者程式碼。
由於使用 2016 年部署的現有 ACCMS 超級電腦的研究員,正在為專案開發更密集的程式碼,因此需要更強大的資源,才能在更短的時間內完成任務。此外,舊系統所需的支援即將耗盡。
「我們認為最重要的是能快速取得科學成果,」Fukazawa 補充道。「因此,我們至少必須從硬體與系統設計中提高應用程式的執行效率。此外,透過最佳化軟體,我們可以進一步提升效能並縮短執行時間。」
縮短執行時間不僅能使結果更快出爐,還能降低每個專案所需的功耗,進而降低運算成本。現在是 ACCMS 從多代技術演進中獲益的時候了。
解決方案
Fukazawa 教授及其團隊設計的新系統所採用的技術,可滿足更高記憶體頻寬效能的關鍵需求。NEC 獲得招標並與 Dell Technologies 合作安裝新系統,以取代現有的超級電腦。
「我們有三種設定,」他解釋道:「其一是針對使用者自己的程式碼,其二用於軟體廠商的一般商業應用程式,其三是為需要大量記憶體而設計。」
「最大的系統包含高頻寬記憶體,因為現有系統限制了許多應用程式的效能。」
這三款系統將取代前身 Camphor 2、Laurel 2 與 Cinnamon 2。新系統包括:
- Camphor 3:7.63 petaFLOPS 系統由 1,120 個 Dell PowerEdge C6620 伺服器節點組成,搭載 56 核心 Intel® Xeon® CPU Max 系列 9480 和128 GB 記憶體。今年稍晚,Camphor 3 規劃新增 Intel Xeon Max 系列 CPU(一個具有整合式高頻寬記憶體(HBM)的處理器家族),屆時將可提供 3.2 TB/秒的記憶體頻寬,加速許多程式碼的解決方案時間。
- Laurel 3:2.65petaFLOPS 系統採用 370 個 Dell PowerEdge C6620 伺服器節點,搭載 56 核心 Intel® Xeon® Platinum 8480+ 處理器和 512 GB 記憶體。這是一款通用的系統,可執行商用軟體及其他使用者程式碼。
- Cinnamon 3:114.6 teraFLOPS 系統由 16 個 Dell PowerEdge C6620 伺服器節點組成,搭載 56 核心 Intel Xeon Platinum 8480+ 處理器和 2 TB 記憶體。Cinnamon 3 將支援需要超大記憶體的應用程式。
採用其他技術建構的第四款系統(Gardenia)將支援使用 GPU 的程式碼,而搭載 Intel Xeon 6354 處理器的現有雲端系統則支援全國各地的互連使用者。所有超級電腦均由 40.32 PB Lustre 檔案系統和 4.06 PB 快閃儲存系統支援。節點與系統以 400 Gbps InfiniBand 網狀架構互連。
為了實現新設計,Fukazawa 及其團隊研究最新技術,並執行 Intel Xeon 處理器的評測基準。
圖 1。Laurel 3 與 Laurel 2 的評測基準程式碼效能比較(由 Kyoto U 提供)1
「對於我們的使用者應用程式而言,」他表示:「記憶體頻寬與 CPU 輸送量效能之比率最為重要。因此,我們想要的是一個具有高頻寬記憶體的高效能 CPU。我們今年稍晚會加入的全新 HBM2e 記憶體技術將能帶來高執行效率。」
許多調查人員會編寫自己的向量處理程式碼。在舊式的 Laurel 2 系統上,處理器支援 Intel® 進階向量擴充 2(Intel® AVX2)。Laurel 3 的第 4 代 Intel® Xeon® 處理器整合了 Intel® 進階向量擴充指令集 512(Intel® AVX-512),將向量暫存器的寬度增加一倍。Fukazawa 教授表示,在使用 Intel® Math Kernel Library(Intel® MKL)的協助下,他們預計向量程式碼的速度至少比舊系統快 1.5 倍。1
系統的完整清單請見 ACCMS 超級電腦網站。
成果
Kyoto U 的第一台新超級電腦將於 2023 年年中實現量產。Fukazawa 及其團隊將開始驗收測試,並向早期使用者開放,以便執行程式碼。Fukazawa 教授表示,與 Laurel 2 相比,新的 Laurel 3 系統上評測基準向量化程式碼的平均節點效能提升了 3.8 倍(圖 1)。1
「我的 MagnetoHydroDynamic 模擬程式碼可實現比舊系統高出約五倍的節點效能,」他總結道。「我也使用配備 Intel Xeon Max 系列 CPU 和 HBM2e 的測試模型,發現其節點效能比新的 Laurel 3 提升三倍。因此,我衷心期待 Intel Max 系列 CPU 帶來的高效能。」—ACCMS 副教授 Keiichiro Fukazawa
解決方案摘要
Kyoto U 的 ACCMS 透過跨多個系統的高效能運算資源,支援大學研究員的超級運算需求。尤其是使用者執行的程式碼,需要比現有系統更高的記憶體頻寬效能。ACCMS 設計並將會部署三個以 Intel® Xeon 處理器為基礎的新系統。即將推出搭載 Intel Xeon CPU Max 9480 的系統,可滿足高頻寬記憶體的需求;而搭載 Intel Xeon 8480+ 處理器的兩個系統,則可滿足一般及大型記憶體運算需求。Laurel 3 與 Cinnamon3 系統現已投入運作,而 Camphor 3 也將於 2023 年 10 月投入運作。
解決方案元素
- 超級電腦支援 Kyoto U 運算與媒體研究學術中心(ACCMS)
- 386 個節點 Intel® Xeon® Platinum 8480+ 處理器(16 個節點的大容量記憶體)