大阪大學 CMC 展開大規模研究

SQUID 透過異質結構開啟國際與全球科學合作的新門扉。

概覽:

  • 大阪大學是日本國立大學法人,而且支援全國學術與工商界的研究人員。大阪大學網路媒體中心 (CMC) 為物理、生命科學等廣泛的科學領域,提供超級計算資源。

  • 為延續大學科學研究的領先地位,CMC 便於 2021 年部署 SQUID。NEC 使用第 3 代 Intel® Xeon® 可擴充處理器組建新的叢集。

author-image

作者

執行摘要

大阪大學是日本國立大學法人,而且支援全國學術與工商界的研究人員。大阪大學網路媒體中心 (CMC) 為物理、生命科學等廣泛的科學領域,提供超級計算資源。2017年,CMC 針對使用不同結構的各種工作負載科學計算,部署搭載第 1 代 Intel® Xeon® 可擴充處理器的 OCTOPUS、1.463 petaFLOPS、世界級異質叢集。OCTOPUS 實現探索的新境界。為延續大學科學研究的領先地位,CMC 便於 2021 年部署 SQUID。NEC 使用第 3 代 Intel® Xeon® 可擴充處理器組建的新叢集,比 CMC 舊系統快 11 倍,且頂尖效能超過 16 petaFLOPS。1所以大阪大學可以使用共用資料、擴充的容量、功能,支援科學的首創計畫與跨領域研究。

SQUID 比 CMC 舊系統快 11 倍,且頂尖效能超過 16 petaFLOPS。

挑戰

2017 年前,大阪大學 CMC 的資源用於一般用途或科學計算。計算科學的 OCTOPUS 當時專用於 AI 與機器學習 (ML) 領域的傳統模擬、建模、新興工作。而 OCTOPUS 的異質結構包括 Intel Xeon 可擴充處理器與 NVIDIA GPU。部署後,OCTOPUS 的使用量急速提升,是支援大阪大學研究人員與學生取得新成就的重要資源。

「OCTOPUS 仍是研究人員工具中的重要元件。」大阪大學 CMC 副教授、伊達進博士坦言。「但 2021 年前,OCTOPUS 平均使用率為 90%,許多使用者得排隊等候多日才能開始研究。」

日本國立大學法人的大阪大學與 CMC 目前支援全國各地學術與工商界無數的研究人員,及參與研究專案的學生,而 AI、Internet of Things (IoT)、高效能資料分析 (HPDA)、使用共用資料,對科學領域的延伸理解與突破是日益重要。為支援擴展研究,CMC 將以安全且可靠的方式共用資料並啟用創新技術,在科學領域擴大跨界研究。這個能力與加深的容量、效能、使用者可擴充性需求,催生了 2021 年設計並部署的 SQUID (探索未解跨界資料科學的超級電腦)。

3D 高解析度沿岸海象模擬 (洋流與鹹度的空間分布) 是利用大阪大學超級電腦的其中一項專案 (圖片由大阪大學副教授、中谷祐介提供)。

解決方案

SQUID 使用計算科學的最新技術與方法,專門探索未解資料科學問題。為實現這個願景,SQUID (例如 OCTOPUS) 需要多個計算結構。

「部分使用者會組合使用不同類型的計算節點。」伊達補充。「其他使用者會比較這些計算節點。SQUID (例如 OCTOPUS) 設計即考慮到配合使用者需求的異質性。」

NEC 組建的 SQUID 包含三組不同、共計 1,598 個伺服器的計算節點:

 

  • 1,520 個一般用途的 HPC 計算節點,每個節點配備雙插槽 Intel® Xeon® 平台 8368 處理器,及加速 AI 推斷的 Intel® Deep Learning Boost (Intel® DL Boost)
  • 搭載雙插槽 Intel Xeon 平台 8368 處理器的 42 個 GPU 節點,每個節點配備 8 個 NVIDIA A100 加速器
  • 36 個向量節點,每個節點配備 NEC SX-Aurora TSUBASA Type 20A 加速器與高頻寬記憶體

但 SQUID 需要更多大型資料容量與管理能力、極致安全性、更多 petaFLOPS,及輕易支援更多使用者的能力。

解決五個重大挑戰

「五個挑戰分別為部署 SQUID:HPC 與 HPDA 整合、雲端高載、安全的計算環境、量身制定計算、資料彙總。」伊達說明。「SQUID 是針對這五項標準設計。」

HPDA 整合:無論模擬或分析,使用者目前可以針對不同目的、以不同方式使用很多類型的計算。據伊達所述,HPDA 已成為揭示研究見解的重要工具,所以在 SQUID 設計中整合傳統的 HPC 與 HPDA 十分重要。

雲端高載:即使使用更大的叢集,大阪大學 CMC 仍需要迅速調整的能力,才能避免使用者人數成長後,系統上的長時間等候,並滿足不同使用者的需求。解決辦法是建立能力,可在必要時高載雲端部分的工作負載。使用者可以選擇只執行 SQUID 或視需求高載雲端。複雜的 NEC 工作排程器可以配合使用者需求,推送工作至 Oracle 雲端基礎結構或 Microsoft Azure 雲端。
安全計算:透過 NEC 與大阪大學 CMC 的合作開發,使用者可在十分安全的環境,存取更多資料。為保護資料與計算,此環境提供動態分割,隔離特定群組的計算和網路。此外,實驗計畫持續探索如何在內部部署的存放庫,使用敏感、機密的資料,而不必移動儲存空間的資料。

量身制定計算: 大阪大學 CMC 支援奇異容器,所以使用者可以在量身打造的工作空間建立並執行專案。使用者可以在本機桌上型或筆記型電腦組建專案,然後傳輸容器檔案至 SQUID 使用所需資源執行檔案。
資料彙總:現代全球研究大多共用超級計算系統產生的資料。一項專案產生的資料可能對其他實驗很重要。因此,SQUID 設計時納入彙總與共用全球研究人員資料的能力。

「我們設計名為 ONION (大阪大學新一代開源與開放式創新技術基礎結構) 的資料彙總基礎結構。」伊達補充,「ONION 讓研究人員可透過智慧型手機或本機計算環境,立即與其他研究人員共用計算完成後的計算結果。」

ONION 與 Cloudian Object Storage HyperStore 平台合作,調節各種資料存取通訊協定,並改善儲存彈性。例如,S3 相容 IoT 裝置的資料可以設為彙總至 SQUID 平行檔案系統,所以使用者可在模擬中使用該資料。

資料彙總基礎結構組建於 Data Direct Networks (DDN) EXAScaler 設備,並提供 20 PB 的硬碟儲存體,及平行檔案系統中 1.2 PB 的高速 NVMe 儲存體。

SQUID 目前提供眾多領域的研究人員這些功能,所以他們可以使用日本最快的叢集執行工作並共用資料。

結果

除了支援大學研究人員,CMC 亦透過兩個程式提供 SQUID 資源給國家研究專案。這些專案通過日本高效能運算基礎結構辦公室,及跨界大規模資訊基礎結構的共用/研究中心核准。

「這兩間機構去年認可的 17 個專案已在大阪大學 CMC 資源上執行。」伊達說,「其中 11 個專案在 SQUID 上完成。這些專案有關量子色動力學 (QCD)、分子動態、COVID-19、天體物理學等。」

據伊達表示,其中一個大學研究小組持續使用 SQUID 探索佇列混合物。「該小組以組合方式使用不同計算節點,並善用處理器與節點加速器的不同特性。這項工作研究如何更有效使用異質計算節點。」他最後說。

SQUID 設計考量要解決的五個挑戰,反映出研究如何回饋更多給全球。科學家更緊密合作獲得新見解與突破性發現。SQUID 以更大的容量和資料彙總/共用基礎結構,支援全球研究社群。

解決方案摘要

大阪大學 CMC 必須增強 2017 年部署的 OCTOPUS 資源,提供更高的效能、更大的容量,及滿足不斷壯大的研究社群需求能力。NEC 使用第 3 代 Intel Xeon 可擴充處理器、GPU 與向量加速器組建異質結構叢集,獲得超過 16 petaFLOPS。此叢集資料彙總基礎結構,組建於 DDN EXAScaler 設備與 Cloudian Object Storage HyperStore 平台,讓科學家可以執行計算,並立即與全球其他科學家共用資料。SQUID 是日本學術與工商界研究人員的重要資源,實現跨多個科學學科的探索與見解。

解決方案元素

  • 1,520 個節點搭載 Intel Xeon Platinum 8368 處理器
  • 42 個節點,每個節點搭載 Intel Xeon Platinum 8368 處理器與 8 GPU
  • 36 個節點搭載 NEC SX-Aurora TSUBASA Type20A 向量加速器
  • DDN EXAScaler 儲存設備

下載 PDF ›