加速永續性、開放式高效能運算創新

英特爾滿足永無止境的運算需求,並將永續性列為全人類下一個超級運算時代的優先事項

檢視

author-image

作者

隨著我們進入Exascale時代並加速邁向Zettascale,科技產業對於全球碳排放量的貢獻也隨之成長。預計到2030年,資料中心將會消耗全球總發電量的3%至7%1,而運算基礎設施所需電力將占據新能源使用量的首位。

今年英特爾承諾在2040年以前,達成全球營運範圍內的溫室氣體淨零排放,並持續開發更具永續性的解決方案。追隨永無止境運算需求的同時,還要創造一個可永續的未來,這是高效能運算(HPC)最大的挑戰之一。如果我們逐一解決HPC運算堆疊中的各個部分—晶片、軟體和系統,仍可達成此一願景。

這就是英特爾在德國漢堡ISC 2022主題演說的核心。

 

從晶片和異質運算架構邁開步伐

英特爾有項積極的HPC產品規劃,到了2024年將可提供多樣化的異質架構產品組合。這些架構讓英特爾能夠提升數個量級的效能表現,同時降低一般負載以及AI、加密和分析等新興工作負載的能耗需求。

搭載高頻寬記憶體(HBM)的Intel® Xeon®處理器,代號Sapphire Rapids HBM的產品即是一個很好的例子,闡述英特爾如何利用先進封裝技術和晶片創新,為HPC帶來實質性的效能、頻寬和省電等多方面改善。憑藉封裝當中最高達64GB的高頻寬HBM2E記憶體,以及整合進入CPU的加速器,英特爾能夠解放受限於記憶體頻寬的工作負載表現,同時在關鍵HPC使用案例中提供顯著的效能改善。第3代Intel® Xeon®可擴充處理器與即將推出的Sapphire Rapids HBM處理器相互比較時,於天氣研究、能源、製造和物理工作負載的效能提升2倍至3倍2。在本次主題演說當中,Ansys技術長Prith Banerjee 也展示在實際的Ansys Fluent和ParSeNet3工作負載之中,Sapphire Rapids HBM可提供高達2倍的效能提升3

英特爾於提升HPC和AI超級運算工作負載數個量級效能的過程當中,運算密度是另外一個必要條件。我們首款旗艦型英特爾資料中心圖形處理器(GPU),代號Ponte Vecchio,已在複雜的金融服務應用和AI訓練與推論工作負載,提供超越競爭對手的表現。英特爾還展現高度逼真的OpenMC4模擬,採用Ponte Vecchio加速可達2倍4

英特爾並不會就此打住,我們今日更宣布新款強大的資料中心GPU,代號Rialto Bridge。藉由推展Ponte Vecchio架構以及結合強化後的晶片塊(tile)和次世代製程節點技術,Rialto Bridge將可提供顯著增加的密度、效能和效率,同時保有軟體一致性。

2022 年 5 月 31 日,在德國漢堡舉行的國際超級運算大會上,Intel Corporation 超級運算事業群副總裁兼總經理 Jeff McVeigh 宣佈了 Intel 資料中心圖形處理器 (GPU) 的 Rialto Bridge。使用與 Intel 資料中心 GPU Ponte Vecchio相同的架構,並將增強的磁貼與 Intel 的下一個處理節點相結合,Rialto Bridge將提供多達 160 個 Xe 核心、更多 FLOP、更多 I/O 頻寬和更高的 TDP 限制,從而顯著提高密度、效能和效率。(圖片來源:英特爾公司)

下載完整影像

展望未來,Falcon Shores是英特爾產品規劃的下一個重大架構創新,將x86 CPU和Xe GPU架構整合至單一插槽之中。這個架構預計在2024年帶來超過5倍的每瓦效能、5倍的運算密度、5倍的記憶體容量與頻寬等進步5

2022 年 5 月 31 日,在德國漢堡舉行的國際超級運算大會上,Intel Corporation 超級運算事業群副總裁兼總經理 Jeff McVeigh 介紹了Falcon Shores。Intel 路線圖的下一個重大架構創新將 x86 和 Xe GPU 整合到一個插槽中。(圖片來源:英特爾公司)

下載完整影像

成功軟體策略的原則:開放、選擇、信任

如果沒有軟體將其融入生活,晶片就只是砂粒般的存在。英特爾的軟體策略是促進整個堆疊的開放發展並提供工具、平台和軟體IP,協助開發者提升生產力,創造更多可擴展、效能更好、更具效率的程式碼,能夠汲取最新晶片創新的優勢,又沒有重新建構程式碼的負擔。oneAPI產業倡議提供HPC開發者跨架構的程式設計環境,因此程式碼能夠透明且可移植地,在CPU、GPU,以及其它專門的加速器上運作。

2022 年 5 月 31 日,在德國漢堡舉行的國際超級運算大會上,Intel Corporation 超級運算事業群副總裁兼總經理 Jeff McVeigh 表示,Intel 的軟體方法是促進整個堆疊的開放式開發,並提供工具、平臺和軟體 IP,以説明開發人員提高生產力並產生可擴充的產品, 性能更好、效率更高的代碼,可利用最新的晶片創新,而無需重構代碼。(圖片來源:英特爾公司)

下載完整影像

目前領先全球的研究和學術機構,有著超過20間的oneAPI卓越中心,均取得重大進展中。以Simon McIntosh-Smith及其英國布里斯托大學科學學系團隊作為例子,他們正在利用oneAPI和Khronos Group的SYCL抽象層進行跨架構程式設計,開發可在Exascale層級達成效能移植的最佳作法。他們的工作將確保科學程式碼,能夠在全球大規模的異質超級運算系統達到高效能。

 

相互結合:永續的異質運算系統

隨著越來越多資料中心和HPC工作負載朝向解構和異質運算的方向移動,我們將需要能夠協助更有效率地管理這些複雜且多樣化的運算環境。

英特爾今日推出Intel® XPU Manager,一款在本機或遠端監測與管理英特爾資料中心GPU的開源解決方案。這款方案專為簡化管理而設計,並透過執行全面性診斷,最大程度地提升可靠性和正常運作時間,改善使用率和執行韌體更新。

Distributed Asynchronous Object Storage(DAOS)檔案系統為移動和儲存資料等耗電任務,提供系統層級的最佳化。DAOS對於檔案系統的效能有著重大影響,同時改善整體存取時間和降低儲存所需容量,並減少資料中心所佔面積和提升能源效率。在與Lustre相關的I/O 500結果之中,DAOS可達成直寫式檔案系統的70倍效能6

 

應對HPC永續性挑戰

英特爾很自豪能夠與全球各地志同道合的客戶和領先研究機構合作,實踐更為永續和開放的HPC。近期的例子包含英特爾與西班牙巴塞隆納超級運算中心共同合作,設立一座開創性的RISC-V Zettascale實驗室,英特爾也持續與英國劍橋大學和Dell合作,將目前的Exascale實驗室推展成新的劍橋Zettascale實驗室。這些努力都建立在英特爾為未來運算所擬定的計劃,建立一個強健的歐洲創新生態系

沒有任何一家公司能夠獨立做到這點。整個生態系包含製造、晶片、互連、軟體和系統,都需要同步投身其中。藉由這些共同努力,我們可以將本世紀最大的HPC挑戰之一,轉變成本世紀的最大的機會之一,並替未來世代改變這個世界。

Jeff McVeigh是英特爾公司副總裁暨超級運算事業部總經理。

Notices and Disclaimers: 
1 Andrae Hypotheses for primary energy use, electricity use and CO2 emissions of global computing and its share of the total between 2020 and 2030, WSEAS Trans Power Syst, 15 (2020)
As measured by the following:
CloverLeaf
  • Test by Intel as of 04/26/2022. 1-node, 2x Intel® Xeon® Platinum 8360Y CPU, 72 cores, HT On, Turbo On, Total Memory 256GB (16x16GB DDR4 3200 MT/s ), SE5C6200.86B.0021.D40.2101090208, Ubuntu 20.04, Kernel 5.10, 0xd0002a0, ifort 2021.5, Intel MPI 2021.5.1, build knobs: -xCORE-AVX512 –qopt-zmm-usage=high
  • Test by Intel as of 04/19/22. 1-node, 2x Pre-production Intel® Xeon® Scalable Processor codenamed Sapphire Rapids Plus HBM, >40 cores, HT ON, Turbo ON, Total Memory 128 GB (HBM2e at 3200 MHz), BIOS Version EGSDCRB1.86B.0077.D11.2203281354, ucode revision=0x83000200, CentOS Stream 8, Linux version 5.16, ifort 2021.5, Intel MPI 2021.5.1, build knobs: -xCORE-AVX512 –qopt-zmm-usage=high
OpenFOAM
  • Test by Intel as of 01/26/2022. 1-node, 2x Intel®  Xeon® Platinum 8380 CPU), 80 cores, HT On, Turbo On, Total Memory 256 GB (16x16GB 3200MT/s, Dual-Rank), BIOS Version SE5C6200.86B.0020.P23.2103261309, 0xd000270, Rocky Linux 8.5 , Linux version 4.18., OpenFOAM® v1912, Motorbike 28M @ 250 iterations; Build notes: Tools: Intel Parallel Studio 2020u4, Build knobs: -O3 -ip -xCORE-AVX512
  • Test by Intel as of 01/26/2022 1-node, 2x Pre-production Intel® Xeon® Scalable Processor codenamed Sapphire Rapids Plus HBM, >40 cores, HT Off, Turbo Off, Total Memory 128 GB (HBM2e at 3200 MHz), preproduction platform and BIOS, CentOS 8, Linux version 5.12, OpenFOAM® v1912, Motorbike 28M @ 250 iterations; Build notes: Tools: Intel Parallel Studio 2020u4, Build knobs: -O3 -ip -xCORE-AVX512
WRF
  • Test by Intel as of 05/03/2022. 1-node, 2x Intel®  Xeon® 8380 CPU, 80 cores, HT On, Turbo On, Total Memory 256 GB (16x16GB 3200MT/s, Dual-Rank), BIOS Version SE5C6200.86B.0020.P23.2103261309, ucode revision=0xd000270, Rocky Linux 8.5, Linux version 4.18, WRF v4.2.2
  • Test by Intel as of 05/03/2022. 1-node, 2x Pre-production Intel® Xeon® Scalable Processor codenamed Sapphire Rapids Plus HBM, >40  cores, HT ON, Turbo ON, Total Memory 128 GB (HBM2e at 3200 MHz), BIOS Version EGSDCRB1.86B.0077.D11.2203281354, ucode revision=0x83000200, CentOS Stream 8, Linux version 5.16, WRF v4.2.2
YASK
  • Test by Intel as of 05/9/2022. 1-node, 2x Intel® Xeon® Platinum 8360Y CPU, 72 cores, HT On, Turbo On, Total Memory 256GB (16x16GB DDR4 3200 MT/s ), SE5C6200.86B.0021.D40.2101090208, Rocky linux 8.5, kernel 4.18.0, 0xd000270, Build knobs: make -j YK_CXX='mpiicpc -cxx=icpx' arch=avx2 stencil=iso3dfd radius=8,
  • Test by Intel as of 05/03/22. 1-node, 2x Pre-production Intel® Xeon® Scalable Processor codenamed Sapphire Rapids Plus HBM, >40 cores, HT ON, Turbo ON, Total Memory 128 GB (HBM2e at 3200 MHz), BIOS Version EGSDCRB1.86B.0077.D11.2203281354, ucode revision=0x83000200, CentOS Stream 8, Linux version 5.16, Build knobs: make -j YK_CXX='mpiicpc -cxx=icpx' arch=avx2 stencil=iso3dfd radius=8,
Ansys Fluent
  • Test by Intel as of 2/2022 1-node, 2x Intel ® Xeon ® Platinum 8380 CPU, 80 cores, HT On, Turbo On, Total Memory 256 GB (16x16GB 3200MT/s, Dual-Rank), BIOS Version SE5C6200.86B.0020.P23.2103261309, ucode revision=0xd000270, Rocky Linux 8.5 , Linux version 4.18, Ansys Fluent 2021 R2 Aircraft_wing_14m; Build notes: Commercial release using  Intel 19.3 compiler and Intel MPI 2019u
  • Test by Intel as of 2/2022 1-node, 2x Pre-production Intel® Xeon® Scalable Processor code names Sapphire Rapids with HBM, >40 cores, HT Off, Turbo Off, Total Memory 128 GB (HBM2e at 3200 MHz), preproduction platform and BIOS, CentOS 8, Linux version 5.12, Ansys Fluent 2021 R2 Aircraft_wing_14m; Build notes: Commercial release using  Intel 19.3 compiler and Intel MPI 2019u8

Ansys ParSeNet
  • Test by Intel as of 05/24/2022. 1-node, 2x Intel® Xeon® Platinum 8380 CPU, 80 cores, HT On, Turbo On, Total Memory 256GB (16x16GB DDR4 3200 MT/s [3200 MT/s]), SE5C6200.86B.0021.D40.2101090208, Ubuntu 20.04.1 LTS, 5.10, ParSeNet (SplineNet), PyTorch 1.11.0, Torch-CCL 1.2.0, IPEX 1.10.0, MKL (2021.4-Product Build 20210904), oneDNN (v2.5.0)
  • Test by Intel as of 04/18/2022. 1-node, 2x Pre-production Intel® Xeon® Scalable Processor codenamed Sapphire Rapids Plus HBM, 112 cores, HT On, Turbo On, Total Memory 128GB (HBM2e 3200 MT/s), EGSDCRB1.86B.0077.D11.2203281354, CentOS Stream 8, 5.16, ParSeNet (SplineNet), PyTorch 1.11.0, Torch-CCL 1.2.0, IPEX 1.10.0, MKL (2021.4-Product Build 20210904), oneDNN (v2.5.0)
4Test by Argonne National Laboratory as of 5/23/2022, 1-node, 2x AMD EPYC 7532, 256 GB DDR4 3200, HT On, Turbo On, ucode 0x8301038.  1x A100 40GB PCIe.  OpenSUSE Leap 15.3, Linux Version 5.3.18, Libararies: CUDA 11.6 with OpenMP clang compiler.  Build Knobs: cmake --preset=llvm_a100 -DCMAKE_UNITY_BUILD=ON -DCMAKE_UNITY_BUILD_MODE=BATCH -DCMAKE_UNITY_BUILD_BATCH_SIZE=1000 -DCMAKE_INSTALL_PREFIX=./install -Ddebug=off -Doptimize=on -Dopenmp=on -Dnew_w=on -Ddevice_history=off -Ddisable_xs_cache=on -Ddevice_printf=off. Benchmark: Depleted Fuel Inactive Batch Performance on HM-Large Reactor with 40M particles​
Test By Intel as of 5/25/2022, 1-node, 2x Intel(r) Xeon(r) Scalable Processor 8360Y, 256GB DDR4 3200, HT On, Turbo, On, ucode 0xd0002c1. 1x Pre-production Ponte Vecchio.  Ubunt 20.04, Linux Version 5.10.54, agama 434, Build Knobs: cmake -DCMAKE_CXX_COMPILER="mpiicpc" -DCMAKE_C_COMPILER="mpiicc" -DCMAKE_CXX_FLAGS="-cxx=icpx -mllvm -indvars-widen-indvars=false -Xclang -fopenmp-declare-target-global-default-no-map -std=c++17 -Dgsl_CONFIG_CONTRACT_CHECKING_OFF -fsycl -DSYCL_SORT -D_GLIBCXX_USE_TBB_PAR_BACKEND=0" --preset=spirv -DCMAKE_UNITY_BUILD=ON -DCMAKE_UNITY_BUILD_MODE=BATCH -DCMAKE_UNITY_BUILD_BATCH_SIZE=1000 -DCMAKE_INSTALL_PREFIX=../install -Ddebug=off -Doptimize=on -Dopenmp=on -Dnew_w=on -Ddevice_history=off -Ddisable_xs_cache=on -Ddevice_printf=off Benchmark: Depleted Fuel Inactive Batch Performance on HM-Large Reactor with 40M particles
Falcon Shores performance targets based on estimates relative to current platforms in February 2022.  Results may vary.​
6 Results may vary​. Learn more at io500 and “DAOS Performance comparison with Lustre installation” on YouTube.
All product plans and roadmaps are subject to change without notice.
Intel does not control or audit third-party data. You should consult other sources to evaluate accuracy.
Intel technologies may require enabled hardware, software or service activation.
Performance varies by use, configuration and other factors. Learn more at www.Intel.com/PerformanceIndex.
Performance results are based on testing as of dates shown in configurations and may not reflect all publicly available updates.  See backup for configuration details.  No product or component can be absolutely secure.
Your costs and results may vary.
Statements that refer to future plans or expectations are forward-looking statements. These statements are based on current expectations and involve many risks and uncertainties that could cause actual results to differ materially from those expressed or implied in such statements. For more information on the factors that could cause actual results to differ materially, see our most recent earnings release and SEC filings at www.intc.com.