LLE 運用 HPC 製作核反應爐

LLE 新型超級電腦採用第 4 代 Intel® Xeon® 可擴充處理器,可進一步瞭解慣性侷限融合。

概覽:

  • 羅徹斯特大學雷射能量學實驗室 (Laboratory for Laser Energetics,LLE) 的科學家正針對慣性侷限融合 (ICF) 展開研究及實驗,企圖從為恆星提供動力的同一過程中獲取能量,是世界上少數執行相關實驗的設施之一。

  • 邁向 ICF 之路始於超級電腦,可為材料、雷射和實驗本身建模。LLE 購入由 Dell Technologies 打造的系統,該系統採用第 4 代 Intel® Xeon® 可擴充處理器,不僅能讓他們更精準模擬實驗,還能進一步探索如何應用機器學習和人工智慧。

author-image

作者

執行摘要

羅徹斯特大學雷射能量學實驗室 (LLE) 是美國獨一無二的寶貴資源。所屬科學家正針對慣性侷限融合 (ICF) 展開研究及實驗,旨在從為恆星提供能量的同一過程(核融合)中獲取能量,是世界上少數執行相關實驗的設施之一。核融合有望提供幾乎取之不盡的潔淨能源,為未來注入動能,但想實現此目標,需要投入數十年的研究、運算和實驗,才能安全點燃及限制核「燃料」。

LLE 與能源部 (DOE) 國家核安全管理局 (NNSA) 簽署合作協議後,不僅作為高密度能量物理學與 ICF 研究的大學實驗室,更一舉成為國家資源。

慣性侷限融合可透過配備強大雷射功能的精密設備完成。然而,邁向 ICF 之路始於超級電腦,可為材料、雷射和實驗本身建模。自 LLE 成立以來幾十年內,該實驗室已託管多台超級電腦。大約每五至七年,LLE 就會達到運算需求超越現有資源容量的臨界值。最近恰巧又面臨該情況,因此促成對新型超級電腦的需求。

他們購入由 Dell Technologies 打造的系統,該系統採用第 4 代 Intel® Xeon® 可擴充處理器,不僅能讓他們更精準模擬實驗,還能進一步探索如何應用機器學習和人工智慧 (AI),從而掌握如何從核能獲取動力。

Conesus 採用第 4 代 Intel Xeon 可擴充處理器,內建 Intel® 加速器引擎。羅徹斯特大學相片 / J.Adam Fenster。

挑戰

LLE 及其姊妹實驗室 Lawrence Livermore 國家實驗室 (LLNL)國家點火設施皆屬於 ICF 實驗室。於 2022 年 12 月 5 日,NIF 的科學家首次實現受控融合,為實驗帶來淨值正面效益:所產生的能量超越實驗中所使用的雷射能量。這是核融合實驗的一大里程碑。

LLE 和 NIF 採用不同方法,將核目標壓縮至引起融合反應的壓力。NIF 採用間接驅動,而 LLE 則採用直接驅動。兩者皆使用強大的雷射功能。直接驅動利用雷射能量直接轟擊核目標,藉此引發必要反應,而間接驅動則使用雷射轟擊目標周圍的臨時介質。臨時介質內的反應產生 X 射線,可壓縮並點燃目標。

LLE 有兩個非常強大的雷射功能,稱為 OMEGA 和 OMEGA EP,由實驗室科學家在超級電腦的協助下設計而成。

LLE 運算設施 HPC 負責人 William Scullin 表示:「我們的雷射會應用於核反應爐,每天大約十次。」

設計雷射及模擬實驗對於運算的要求相當嚴苛。

Scullin 解釋:「我們的許多運算週期都經過模擬實驗。我們擁有用於慣性侷限融合建模的 1D、2D 和 3D 建模功能。我們在極端溫度和壓力下對材料和電漿進行模擬。由於高功率雷射並非市售元件,因此,我們內部設計許多自家的光學和雷射系統,其中包括用於開發液晶塗層等產品的材料建模。此外,還有大量統計工作有待完成。」

例如,Scullin 表示,隨着統計分析需求增加,運算科學家正在探索如何利用機器學習,瞭解究竟可從舊資料與可用資料中發現哪些內容。他們需要新的運算資源,協助實現此類發現。此外,LLE 正在變得越來越強大。

Scullin 補充說明:「實驗室正在成長茁壯。我們正在逐步擴大規模,不僅與校園內的教師以及更廣泛的社群建立新的合作關係,更將與 NNSA 續簽合作協議。就我們目前的資源可用性而言,使用者必須等待較長時間才能執行研究。這一切都證明購買一個新的大型叢集實屬合理。
於 2022 年,由於運算資源有限,他們開始採購新的 HPC 系統。

解決方案

Scullin 表示:「與 NNSA 達成合作協議,即代表我們受益於 Tri-Labs(即 Sandia 國家實驗室、Los Alamos 國家實驗室和 Lawrence Livermore 國家實驗室)的 CTS2 超級電腦設計工作。針對 Tri-Labs 所解決的各種核能相關問題,CTS2 定義了高效率且符合成本效益的運算系統配置。」

根據 CTS2 計畫,LLE 購入 Conesus 超級電腦,該超級電腦以紐約羅徹斯特附近地區的五指湖之一命名。Conesus 採用第 4 代 Intel Xeon 處理器,內建 Intel® 加速器引擎

商品技術系統 2 (CTS-2) 計畫,是國家核安全管理局為 Tri-Labs(即 Sandia 國家實驗室、Los Alamos 國家實驗室和 Lawrence Livermore 國家實驗室)制定的超級電腦採購計畫。自 2007 年以來,商品系統採購計畫讓 Tri-Labs 得以利用商品元件實現強大的容量運算,獲得在通用平台上建構且符合成本效益的 HPC 資源。

先前的計畫包括 Tri-Lab 容量叢集 1 (TLCC1、2007-2010)、TLCC2 (2011-2015) 和 CTS-1 (2016-2021)。CTS-2 採購將於 2022 年至 2025 年執行。

CTS-2 機器採用第 4 代 Intel Xeon 可擴充處理器。當與 Tri-Labs 軟體堆疊 (TOSS) 和 Tri-Labs 通用環境 (TCE) 合併使用時,CTS-2 機器會提供通用運算環境。CTS-2 機器由 Dell EMC 建置,包括以下技術:

 

  • Dell C6620 運算節點
  • Dell 760 登入/管理/閘道伺服器
  • 第 4 代 Intel Xeon 可擴充處理器
  • Cornelis Networks Omni-Path或 Mellanox InfiniBand 網狀架構
  • CoolIT 直達晶片液態冷卻
  • GPU 選項

 

多台 CTS-2 機器已於 2022 年部署完畢,其他機器則於 2023 年陸續抵達,包括 LLE 的 Conesus。

Scullin 表示:「我們一直以來就像 CPU 商店。我們大多數整合建模程式碼都採用有限體積法。因此,記憶體頻寬等因素對我們而言變得異常重要。同樣地,我們有許多生產程式碼都使用 Fortran 撰寫。而 Intel 編譯器始終為 Fortran 提供卓越的效能。」

Conesus 由 Dell Technologies 所打造,包含 384 個 PowerEdge C6220 節點,採用 Intel Xeon Platinum 8480+ 處理器,兩個插槽各有 56 個核心。搭載 Intel Xeon Platinum 8480+ 處理器的全新 Dell PowerEdge 伺服器,可支援每個 CPU 最多 8 個 DIMM 和最多 4800 個 MTS。相較於上一代處理器,CPU 架構的記憶體頻寬提升高達 50%(4800MTS (1DPC)/4400MTS(2DPC))。這款擁有 43,008 個核心的機器最近以 2.59 petaFLOPS 的表現,在 2023 年 6 月的 Top500 名單中名列第 311 位。這款新型超級電腦也在 2023 年 6 月的 Green500 名單中排行第 77 位

內建 Intel 加速器引擎可為 HPC 中的許多關鍵工作負載提供加速。Scullin 預期科學家將利用 Intel® 進階向量擴充指令集 512 (Intel® AVX-512),為浮點運算提供大幅加速。安全性也是 LLE 的關鍵需求。

Scullin 補充說明:「我們不會在此處從事機密工作,但對於工作環境的安全需求仍相當注重。因此,該架構的另一個重要面向,便是確保我們建立一個允許輸出管制的環境。一切皆遵循 NIST SP 800-171,其中包括安全性控制,例如靜態加密、啟動時加密和飛行中加密。」

LLNL 國家點火設施的靶室,於 2022 年 12 月 5 日,透過 192 束雷射光將超過 200 萬焦耳的紫外線能量傳遞至小型燃料芯塊上,藉此產生融合點火。

許多支援硬體的 Intel® 安全性技術(包括 Intel® Crypto Acceleration)都有助於支援此類 NIST 需求。LLE 工作也受益於其他加速器引擎,例如用於分析大型資料集的 Intel® Data Streaming Accelerator。

LLE 總監 Chris Deeney 表示:「LLE 是美國最大的 NNSA 大學研究計畫,使其成為『實施新系統的最佳場所』。Conesus 將為羅徹斯特地區及全國學生和教師提供獨特的教育與研究機會。」

該系統得到美國能源部和 NNSA 內部多個小組的支持,以及紐約州能源研究與發展局 (NYSERDA) 和帝國發展局 (Empire State Development) 的國家資助。

Deeney 表示:「如果沒有 NNSA 的支援,並且同意我們與國家實驗室合作,我們不可能實現這般大幅進展。此外,紐約州資助可讓 LLE 進行策略性投資,而利用新電腦強大功能的全新儲存系統則是另一個絕佳範例。」

結果

Scullin 說明:「Conesus 的一切都歸因於融合和 LLE 的需求。我們的資源有限,使用者也一直在排隊等候完成工作。因此,擁有額外容量有助於迅速搞定更多工作。我們期望 DDR5 能大幅改善頻寬,並在效率和輸送量方面獲得巨大效益。同時也將支援使用者擴充。」

Scullin 表示,科學家現在擁有運算資源,便能增加執行次數、收集更多資料,以及執行更高解析度的研究,包括在更大資料集上使用機器學習。一名研究人員預估,在早期 LLE HPC 系統上運行其中一項專案,可能需要一週至 30 天的時間,但在 Conesus 上只需幾天便能完成。

儘管 LLE 的許多科學程式碼都以 Fortran 撰寫,但採用 Intel 技術和 Intel® 軟體的 Conesus 可針對其他架構提供效能最佳化。

Scullin 表示:「許多年輕科學家已經開始使用 Jupyter 筆記型電腦執行分析。因此,我們正在研究 Python 等工作流程。Intel 採用 Intel® Distribution for Python 所做的最佳化工作,應該直接轉化為解決機器學習類型問題的更佳功能。」

我們已針對 Conesus 規劃幾項早期科學專案。研究人員根據他們在其他機器上完成的專案,試圖瞭解 Conesus 的一般功能以及大規模運作功能。這些執行包括測試 OMEGA 雷射系統低温內爆的統計建模;模擬 alpha 粒子停止和燃燒電漿;以及研究產生大量熱穩定性極高反應的液晶。

Conesus 將於今年夏天投入生產。

解決方案摘要

LLE 是研究慣性侷限融合以從核融合獲取動力的資源。LLE 的高效能運算可讓科學家模擬材料、建立及測試雷射,並且為 ICF 模擬高密度能量物理實驗。由於研究人員在現有資源上排隊等候運算時間,因此實驗室根據 NNSA CTS-2 計畫,採用名為 Conesus 的新系統。Conesus 採用第 4 代 Intel Xeon 處理器,內建 Intel 加速器引擎。儘管全新 2.59 petaFLOPS 系統在今年稍後才會投入生產,但該系統已躋身 TOP500 和 Green500 名單中。Conesus 可讓研究人員以更強大的容量繼續執行 ICF 工作,並透過機器學習進一步探索大型資料集,協助深入瞭解 ICF。

 

下載 PDF ›