執行摘要
長久以來,義大利在歐洲的研究與工業領域,引領創新並支援高效能運算(HPC)。Cineca 是義大利實現高效能運算承諾的核心,這個私人非營利聯盟,包括教育部、大學與研究部、69 所義大利大學、28 個國家公共機構,以及 13 個國立研究機構。該組織向成員提供高效能運算資源與高階支援。所有成員都在歐洲各地的各個研究專案相互合作。研究發現與深入解析用於帶動科學探索與商業應用,Cineca 因而成為學術界、科學領域與產業之間的技術橋樑。
Cineca 會定期部署新的高效能運算系統,持續為客戶提供先進的技術。Cineca 最近部署了功能最強大的超級電腦,搭載最新一代的 Intel® Xeon® 可擴充處理器與 NVIDIA GPU。名為 Leonardo 的新型高效能運算系統,躋身 11 月 Top500.org 榜單的第 4 名。Leonardo 的設計旨在提供 250 petaFLOPS HPL 運算效能,以及 10 exaFLOPS 的 FP16 AI 效能,讓 Cineca 在邁向歐洲首屈一指超級運算中心的目標時,取得了全新的成就。
Leonardo採用先進技術,包括第 4 代 Intel® Xeon® 可擴充處理器,可為 Cineca 及其客戶提供非凡的功能。
挑戰
義大利的 Cineca 在全歐洲提供高效能運算服務,協助科學界與工業界探索及創新。該公司支援材料科學、天文物理學、工程學、生物資訊學、天氣與氣候等領域的先進研究。高效能運算技術與方法日新月異,研究資料急遽成長,工作負載對運算資源的需求越來越高。在工作流程融入人工智慧(AI)、機器學習(ML)與深度學習(DL),需要先進的超級運算架構。因此,Cineca 的理念是維持高效能運算的競爭優勢,積極達成百萬兆級這項目標,保持 Cineca 在全球超級運算界的領先地位。
表 1.Leonardo 儲存分割區摘要(由 Cineca 提供)
為了推動研究發展,Cineca 需要義大利目前沒有的運算功能,輔助它的諸多百萬兆級前期系統,包括:
- 多個 Marconi 層級,包括搭載 Intel® Xeon® 8160 Platinum 處理器與 Intel® MCU 架構的 Marconi-A3。
- Marconi100,100 petaFLOPS 系統。
- Galileo100 以及 ADA Cloud 設計搭載 Intel® Xeon® 8260 Platinum 處理器。
圖 1。Leonardo 系統概要(由 Cineca 提供)
EuroHPC Joint Undertaking (EuroHPC JU) 計畫為歐洲的超級運算提供支援,協助為拓展歐洲大陸的超級運算資源提供資金。Cineca 與 EuroHPC JU 的超級運算計畫積極進取,支援 Cineca 利用新一代資料中心與超級運算技術,建置名為 Leonardo 的全新高效能運算資源,適用於各種傳統工作負載、視覺化與 AI。
解決方案
EuroHPC JU 計畫在歐洲各地部署了眾多高效能運算系統,而 Leonardo 是第一個。Cineca 與其他歐洲高效能運算中心獲得 EuroHPC JU 資助,可望在不久之後如期實現百萬兆級超級運算,滿足全球重大挑戰的需求。
Cineca 客戶的工作負載對運算資源有各式各樣的需求,包括記憶體頻寬、資料處理量、浮點運算與矩陣運算等。這類工作負載包括全始材料科學與分子建模、天氣與氣候建模、電漿物理模擬、大規模生物資訊學、AI 與 ML,以及許多其他要求嚴苛的應用。因此,Leonardo 需要以平衡的方式,同時提供高效能的通用高效能運算與人工智慧功能,消除各種工作負載的瓶頸。Cineca 為 Leonardo 選擇了混合式架構,CPU 與 GPU 核心數超過一百萬個,是專為運算密集型與資料密集型高效能運算工作負載而設計。
系統摘要
Atos 將 Leonardo 建置於 BULLSequana XH2000 超級電腦節點。這套系統包含四個分割區,以及超過 136 個 BULLSequana XH2000 Direct Liquid 冷卻機架。Leonardo 的分割區包含前端/服務層、儲存層、運算加速器(加速器)層,以及運算(資料導向)層。兩個運算層與加速器層,可實現每秒將近 250 次 petaFLOPS HPL 與 10 次 exaFLOPS AI 16 位元浮點運算。
前端/服務分割區:這些分割區提供登入、服務與視覺化節點。
儲存分割區:儲存分割區的設計同時支援高資料處理量與容量,包括一個 5 PB 快速層與 100 PB 容量層(表 1)。這個架構可讓系統以極致的頻寬與 IOPS 處理要求苛刻的 I/O 使用案例,同時為出現在現今運算問題與 AI 的龐大資料集提供容量。
運算(資料導向)分割區:Cineca 表示,1,536 個 BULLSequana X2610 3 節點運算刀鋒搭載第 4 代 Intel® Xeon® 可擴充處理器(各 56 個核心),運算(資料導向)分割區可提供九個 petaFLOPS HPL。
運算加速器(加速器)分割區:3,456 個 BULLSequana X2135 DaVinci 運算刀鋒有一個 Intel® Xeon® 8358 Platinum 處理器(32 核心),以及四個自訂設計的 NVIDIA Ampere GPU。這個分割區旨在滿足 GPU 加速工作負載運算要求嚴苛的需求。
Leonardo 是輔助 Cineca 諸多百萬兆級前期系統最新新增的利器。
這個系統透過 200 Gbps InfiniBand Architecture 網路與 100 Gbps 間節點通訊相互連結。
第 4 代 Intel® Xeon® 可擴充處理器
運算分割區的第 4 代 Intel Xeon 可擴充處理器,整合針對特定工作負載最佳化的內建加速器。加速器以更高的效能提供更優異的效能,締造最佳的總體擁有成本。1 這些加速器包括支援 BFloat16 與 int8,可加速類神經網路運算的 Intel® Advanced Matrix Extensions (Intel® AMX);加速密碼編譯與資料壓縮的 Intel® QuickAssist Technology (Intel® QAT);以及加速 AI 處理等工作的 Intel® Advanced Vector Extensions (AVX-512)。
功耗是現今超級運算中心的關鍵指標。第 4 代 Intel Xeon 可擴充處理器是 Intel 最具永續性的資料中心處理器,具有多項管理功耗與效能的功能,讓 CPU 資源發揮得更淋漓盡致,達到關鍵的永續性目標。
LISA 擴充
此外,Cineca 已獲得核准,即將展開稱為 LISA 的重大擴充計畫。Cineca 預計,這項擴充計畫將讓 Leonardo 原先就已經強大的運算效能提高 100 petaFLOPS 左右,系統能夠支援的使用案例範圍也更廣。LISA 會新增兩個新模組。第一個模組採用的傳統節點運用高頻寬記憶體,旨在改善需要在記憶體與 CPU 之間快速傳輸資料的工作效能。第二個高階加速模組將搭載新一代 GPU 伺服器節點,旨在就每瓦效能顯著提高效率。
結果
Leonardo 將為 Cineca 及其成員提供先進的高效能運算功能,支援各種新發現與創新技術。
Leonardo 超級電腦的量產前階段已經開始。Leonardo Early Access Program (LEAP) 旨在支援科學影響力高的計畫,而且可以充分利用 Leonardo 的諸多運算資源。科學與工業界以及公家機關的研究人員不分國籍,全部都可以送交提案。
解決方案摘要
超級運算技術日新月異,運算方法亦快速演變。這樣一來,便能在世界各地部署新式的先進高效能運算系統。Cineca 的 Leonardo 這類新型超級電腦,讓全世界的科學家都能獲得更深入的解析,在處理重大挑戰時獲得新發現。
Cineca 憑著 EuroHPC JU 的資助,部署了 Leonardo。根據 Top500.org,這是全球速度第 4 快的超級電腦。Leonardo 採用先進技術打造而成,包括第 4 代 Intel Xeon 可擴充處理器。Leonardo 的 AI 效能超過 250 pFLOPS HPL,以及 10 ExaFLOPS 16 位元,可讓歐洲的研究人員更深入探究世界面臨的問題,為科學界和產業界提供創新的解決方案。
請進一步瞭解 Intel® Xeon® 可擴充處理器家族,網址是:https://www.intel.com.tw/content/www/tw/zh/products/details/processors/xeon/scalable.html。
請進一步瞭解 Leonardo,網址是:leonardo-supercomputer.cineca.eu/hpc-system/。
解決方案元素
- 由 Atos 在 BULLSequana XH2000 平台所打造
- 250 petaFLOPS HPL (Rmax) / 10 exaFLOPS FP16 AI 效能
- 3,456 台伺服器搭載 Intel® Xeon® 8358 處理器與 NVIDIA Ampere GPU
- 1,536 台伺服器搭載第 4 代 Intel® Xeon® 可擴充處理器
- 5PB 的高效能儲存裝置 / 100PB 的大容量儲存裝置