阿貢國家實驗室(Argonne National Laboratory)的 Aurora 百萬兆級系統

Aurora 擁有估計超過百萬兆每秒浮點運算次數(FLOPS)的效能,將能提升研究及工程工作的能力。

概覽:

  • 阿貢國家實驗室位於伊利諾州,是一間專注於解決人類重大問題的跨領域研究中心。

  • 在 HPE 與 Intel 加持以及美國能源部的支持下,Aurora 的效能估計將超過一個 exaFLOPS,也就是每秒百萬兆次計算。

author-image

作者

總結

一旦完成,阿貢國家實驗室的 Aurora 將成為該國首款採用 Intel® 架構打造的百萬兆級高效能運算系統。 在承包商 Hewlett Packard Enterprise(HPE) 與 Intel 加持以及美國能源部(DOE)的支持下,Aurora 的效能估計將超過一個 exaFLOPS,也就是每秒百萬兆次計算。憑藉其超大的規模和效能級別,Aurora 將能為科學社群提供生物化學、工程學、天體物理學、能源和醫療保健等領域最先進的研究所需的運算能力。

挑戰

作為美國的主要研究機構,阿貢國家實驗室身處該國未來百萬兆級運算能力開發工作的最前線。Aurora 的未來家園 阿貢領導運算設施(ALCF)正在透過 HPC、高效能資料分析與 AI 的聚合來協助提升科學運算能力。

ALCF 運算資源可供來自大學、產業界及政府機構的研究人員使用。透過提供大量的超級運算時間與使用者支援服務,ALCF 能夠實現以解決全球最大和最複雜的科學與工程問題為目標的大型運算專案。在確保競爭力的同時,DOE 與 ALCF 還想幫助研究人員解決各種挑戰,例如由 AI 引導的大量資料集分析或全面模擬等。

阿貢領導運算設施(ALCF)將發表全國首批採用 Intel® 架構打造的百萬兆級電腦 Aurora;屆時,將能讓模擬、資料及學習研究提升至全新境界。

解決方案

Intel 作為主要整合商,在內部 HPC 系統專業知識的基礎上,與 Argonne 和 HPE 的 HPC 專家建立了緊密的合作夥伴關係。在三方攜手合作下,可提供一個 exaflop(即每秒百萬兆次計算)運算能力的百萬兆級系統 Aurora 即將問世。

該聯合團隊已花費數年設計系統,並利用專業軟硬體創新技術將其最佳化,使其具備高階研究計畫所需的效能。Aurora 的其他設計需求包括具備長期可靠性與能源效率的元件。

Aurora 面世時,將採用多項全新的 Intel 技術。每個緊密整合的節點將採用兩個未來的 Intel® Xeon® 可擴充處理器以及六個採用 Intel® Xe 架構的未來 GPU。每個節點還能提供擁有八個網路端點、整合性記憶體架構以及高頻寬、低延遲連線能力的擴充效率。該系統將支援 10 PB 記憶體儲存容量,以滿足百萬兆級運算的需求。

此外,Aurora 使用者還將受益於 Intel® 分散非同步物件式儲存(DAOS)技術的優勢,該技術可減輕資料密集型工作負載的相關瓶頸。DAOS 透過 Intel® Optane™ 持續性記憶體支援,讓專為大型分散式非揮發性記憶體(NVM)打造的軟體定義物件存放區得以實現。

該系統將以 HPE Cray Shista 超級電腦架構為建構基礎;此架構採用新一代 HPE 系統軟體,具備可模組化、可延伸、可彈性選擇處理器和可無縫擴充等功能。此外,系統將以 HPE Slingshot 互連技術作為其網路骨幹,提供許多重要的新功能,例如可調適選路、擁塞控制以及乙太網路相容性。

Cray ClusterStor E1000 平行儲存平台將提供總計 200 PB 的新儲存容量,用以支援研究人員日益融合的工作負載。新的解決方案內容包涵了一個名為「Grand」的 150 PB 全中心儲存系統,以及名為「Eagle」的 50 PB 社區檔案系統,用於資料共享。Aurora 啟用後,可提供每秒 1 TB 頻寬的 Grand 系統將被最佳化,用以支援融合模擬科學與新的資料密集型工作負載。

Aurora 超級電腦將是美國首款整合 Intel 即將推出的 HPC 與 AI 軟硬體創新技術的百萬兆級系統,其整合的創新技術包括:

  • 未來世代的 Intel Xeon 可擴充處理器
  • 未來的 Intel Xe 架構 GPU
  • 採用分散非同步物件式儲存(DAOS)技術的 230 PB 儲存裝置,頻寬大於 25 TB/秒。
  • 專用於簡化各種 CPU、GPU、FPGA 與 AI 架構開發的 oneAPI 整合性程式模型。

Argonne 團隊將採用專用於簡化異質架構開發的 oneAPI 程式模型,為各種 CPU、GPU、FPGA 與 AI 加速器提供一個單一整合性的程式模型。

結果

該團隊目前正致力於開發新架構的生態系統。ALCF 成立了 Aurora 早期科學計畫(ESP),以確保研究社群與關鍵科學應用在部署時能為百萬兆級電腦的規模與架構做好準備。

ESP 將研發的時間和資源獎勵給橫跨 HPC、高效能資料分析與 AI 等各種不同的專案。大多數獲選專案的研究內容非常複雜,超出了傳統 HPC 系統的能力範圍。因此,Aurora 將引領科學新時代的發展,讓目前無法實現的運算密集型科學事業成為現實。

聚焦 Hewlett Packard Enterprise
HPE 將運算與創意結合,讓具有遠見者可以不斷提出問題,挑戰可能性的極限。憑藉其超過 45 年的經驗,HPE 開發出全球最先進的超級電腦,突破了效能、效率與可擴充性的極限。HPE 持續為資料與發現的聚合創造新的解決方案,推動諸如適用於 HPE Cray EX 超級運算架構的 HPE Cray 程式設計環境和 HPE Slingshot 互連技術等發展。HPE 提供了全方位的超級電腦、高效能儲存裝置、資料分析與人工智慧解決方案產品組合。

新世代科學需要極致的 HPC 系統

最初計劃在 Aurora 上執行的專案包括了一些最困難且運算密集的科學研究。入選 Aurora 早期科學計畫的眾多專案當中包括:

開發安全潔淨的熔合反應器
核融合是太陽生產能源的方式,其作為可再生能源擁有巨大的潛力。核融合反應爐利用磁場來容納燃料(一種含氘的熱電漿;氘是一種從海水中提取的氫同位素)。普林斯頓電漿物理實驗室首席研究物理學家 William Tang 博士打算利用 Aurora 訓練一個 AI 模型,用以預測反應爐運行中的意外中斷情形。Aurorar 將從現有的反應爐中擷取大量資料來訓練該 AI 模型。然後,該模型將可被部署至實驗中,用以觸發控制機制,防止即將發生的中斷事件。由於百萬兆級運算、AI 的崛起和深度學習,Tang 博士將會帶來能促進核融合能源研究的嶄新見解。

使用電子顯微鏡資料分析算出的神經元影像。插圖中顯示了一個資料切片,其中彩色區域表示已識別的細胞。透過多個切片追蹤這些區域,擷取對應目標解剖結構的子體積。(圖片由阿貢國家實驗室的 Nicola Ferrier、Narayanan (Bobby) Kasthuri 與 Rafael Vescovi 提供)

神經科學研究
Argonne 的資深電腦科學家 Nicola Ferrier 博士正與來自芝加哥大學、哈佛大學、普林斯頓大學和 Google 的研究人員合作。這項合作的目的旨在利用 Aurora 來瞭解大腦整體結構以及個別神經元之間如何產生連結,進而形成大腦的認知路徑。該團隊希望他們付出的艱巨努力能夠發現造福人類的資訊,例如神經疾病的潛在治療方法。

尋找更有效的癌症治療方式
杜克大學生物醫學工程學系 Alfred Winborne and Victoria Stover Mordecai 助理教授 Amanda Randles 博士和她的同事共同開發了「HARVEY」系統。HARVEY 系統能預測血球在高度複雜的人體循環系統中的流向。在使用 Aurora 的期間,Randles 博士企圖重新利用 HARVEY 系統來更深入瞭解癌症的轉移。透過預測轉移細胞在體內可能的移動位置,HARVEY 系統能協助醫師及早預測續發腫瘤可能形成的位置。

深入瞭解「暗」宇宙
恆星、行星、氣體、星雲以及宇宙中其他所有可見物質的總和只占了宇宙的 5%。其他的 95% 都由暗物質和暗能量組成。宇宙不僅在成長,其膨脹的速度也正在加快。阿貢國家實驗室的物理學家暨運算科學家 Katrin Heitmann 博士有著想使用 Aurora 達成的遠大目標。她的研究目的是更深入瞭解人們目前所知甚少的暗宇宙。

此巨大結構(即所謂的銀河星團)的模擬作為較早期 ESP 的一環在 Argonne 的 Theta 系統上執行。該物體的太陽質量為 5.6e14。顏色顯示了溫度,白色區域則顯示了重子密度場。(圖片由 JD Emberson 與 HACC 團隊提供)

設計更省油的飛機
科羅拉多大學波德分校的航太工程學教授 Kenneth Jansen 博士透過分析機身周圍的亂流,致力研發更安全、更省油的飛機設計。亂流的變異性使得模擬整架飛機與亂流的互動十分困難。每一秒鐘,飛機的不同部分都會受到氣流不同程度的衝擊。因此,Jansen 博士與他的團隊需要在模擬過程中即時評估資料。目前的 HPC 系統以實際機身尺寸的十九分之一、實際航速的四分之一模擬其周圍的氣流,缺乏執行該項任務所需的能力。

Aurora 將協助 Jansen 博士與他的團隊更深入瞭解實機大小和實際飛行條件所涉及的基本物理學。由此一來,他們便可以確定改善何處的設計會對飛行特性產生重大影響。

HPE 很榮幸能與 Intel 合作,共同打造美國首款百萬兆級的超級電腦,並將其交付給 Argonne。這對 HPE Cray EX 的彈性設計和獨特的系統及軟體功能而言,是個令人鼓舞的證明。結合我們的 HPE Slingshot 互連技術,這將成為 Argonne 超大規模科學事業和資料導向工作負載的根基。HPE Cray EX 超級電腦是專為這個變革的百萬兆級運算時代以及人工智慧、分析技術、建模和模擬的聚合而設計的:這所有的一切都同時、在同一系統上進行,規模非常驚人。」 —— HPE 資深副總裁暨 HPC 與 AI 總經理,Peter Ungaro

支援歐洲核子研究組織(CERN)的大型強子對撞機計畫(LHC)

Argonne 的物理學家 Walter Hopkins 博士是 ATLAS 實驗的一員,該實驗是一項研究構成宇宙的基本粒子與作用力的國際合作計畫。ATLAS 實驗對 CERN 的大型強子對撞機中的質子碰撞結果進形成像。

這些影像被用於 2012 年希格斯玻色子的歷史性發現中,進而完成了粒子物理學的標準模型。在未來十年間,升級的大型強子對撞機與 ATLAS 實驗將能夠收集 10 倍之多的資料。這將有助於回答一些尚未解決的問題,例如「什麼是暗物質 ?」或「重力與電磁力、強作用力或弱作用力之間有什麼關係?」 隨著資料量將增加 10 倍,物理研究所需的模擬量將增加 100 倍,很快會超過現有資源的負荷能力。此計畫將部分較運算密集的模擬移到加速器上,以解決模擬量增加的問題。此外,該計畫正利用深度學習擴大目前粒子鑑別演算法的分析範圍。透過這個計畫,Aurora 將成為下一階段尋找新物理學的重要發現資源。

研究的光明前景

百萬兆級的運算將賦予研究人員一個影響深遠、具變革性的工具。Aurora 的效能層級、規模和處理巨大資料集的能力擁有令人難以置信的潛力。透過這個系統,我們將能解開數十年來困擾科學家和工程師的各種謎團。Aurora 也將使工程領域的創新與發現達到前所未見的境界。

聚焦阿貢國家實驗室

阿貢國家實驗室位於伊利諾州,是一間專注於解決人類重大問題的跨領域研究中心。在美國能源部 (DoE) 的支持下,Argonne 與包括企業和學術機構以及全國其他實驗室在內的許多組織合作,以實現跨越物理學、宇宙化學和生物學等學科的科學突破。

技術元件

下載 PDF ›