Transformer 學習模型日益成長,高運算能力的要求隨之提高
Taneishi 利用各種醫療影像展開深度學習(DL)架構疾病分析的研究,包括胸部 X 光、影響分子目標之小分子的虛擬篩選,以及蛋白質的結構與功能變化。這些領域的 AI 技術研究需要大規模運算平台,因此 AI 加速器成了重中之重。
Taneishi 表示:「Transformer 於 2017 年問世,加上注意力機制是公認的深度學習基本要素,過去採用卷積和循環神經網路架構的模型持續改寫,甚至是自然語言處理以外的領域也不例外。」「因此,運算架構大幅增加,對於進階 DL 運算效能的需求也隨之提高。」
Kei Taneishi 先生,資料科學家,National Research and Development Agency RIKEN Photonics Research Center。
RIKEN 託管的 Hokusai Sailing Ship (HSS) 是它的其中一個大規模共享運算平台,而且 HSS 並未使用 AI 加速器,主要是針對資料科學最佳化。反之,該機構建立的異質運算環境結合內部部署與雲架基礎架構,由四家主要廠商的雲端技術搭配 Center for Computational Science 的通用應用程式超級電腦 Fugaku,以及 RIKEN Center for Advanced Intelligence Project 的 AI 開發電腦系統 RAIDEN 一起執行。
CP 值優異,模型移轉更輕鬆
在該機構的雲端技術運算資源中,Taneishi 對搭載 Habana® Gaudi® AI 處理器的 Amazon EC2 DL1 執行個體特別感興趣。這些執行個體採用八個 Habana® Gaudi® AI 處理器、有 96 個 vCPU 的第 3 代 Intel® Xeon® 可擴充處理器、768GB 記憶體、400 Gbps 頻寬網路,以及 4 TB 本機儲存空間。Habana Gaudi AI 處理器擁有八顆 Tensor Processing Core (TPC)、32 GB 的高頻寬記憶體,以及十個整合式 100 GbE 基於融合型乙太網路的 RDMA(RoCE)連接埠。DL1 執行個體上的八部 Gaudi 裝置透過這些 RoCE 連接埠,以全體對全體的方式連接,擴充效率極佳。相較於最新一代 GPU 技術的 EC2 執行個體,AWS EC2 DL1 執行個體在訓練深度學習模型方面的 CP 值提升高達 40%。1
Taneishi 說明:「Habana® Gaudi® AI 處理器可在硬體支援 tensor 運算和矩陣乘法,以最佳方式匯集深度學習運算圖,提供強大的效能。」
這款處理器在 2019 年推出時,Transformer 早已是公認的標準,能夠以超高效率協助訓練 Transformer 模型。AI 加速器中專門建置之 DL 架構的優勢,讓 Gaudi 技術的解決方案能提供優異的 CP 值,而且相較於電腦視覺與 NLP 模型成本相近的 V100 GPU,訓練處理量高了兩倍以上。」
TensorFlow 與 PyTorch 模型輕輕鬆鬆便能搭配 Habana Gaudi AI 處理器使用,而且只要改寫少量指令碼即可。由於 Habana® SynapseAI® SDK 幾乎不需要改寫程式碼,因此開發者可以配合運算資源變換 AI 選擇器,而且可以利用現有的指令碼,將移轉的工作量與成本降到最低。
Taneishi 說明:「若使用 TensorFlow 與 PyTorch 語法,我們完全不必更改就能使用 AI 加速器,因此不費吹灰之力就能移轉 Habana SynapseAI SDK 支援的模型及其衍生模型。」「雖然我們必須新增幾行程式碼才能控制 AI 加速器,但是在資料定義、建模、訓練或推論的過程中,相容性完全沒有問題。對於研究人員來說,最大的優勢就是我們可以用 CP 值高的電腦,立即試用學術報告發布的新模型。」
大幅加速:預測蛋白質二級結構的速度快 22%,分類醫學影像疾病模式的速度快 18%2
Taneishi 利用 Habana Gaudi AI 處理器,研究兩個領域的深度學習訓練:以語言模型 BERT-Large 預測蛋白質二級結構,以及使用電腦視覺模型 CheXNet 進行 X 光疾病分類。
為了在 3D 結構預測的第一階段預測蛋白質二級結構,利用構成蛋白質家族的 20 種氨基酸殘基訓練 DL 模型,作為預定蛋白質結構資料庫的輸入資料,進而產生二級結構序列的推論。試驗顯示,Habana Gaudi AI 處理器訓練模型時,每次反覆運算只需要 4.6 秒,相較於 V100 GPU 耗時 5.9 秒,速度快了 22%(請見圖 1)。
圖 1。預測蛋白質的二級結構。
使用 CheXNet 的疾病分類,輸入 30,805 名患者 112,120 張胸部 X 光影像的資料集,推論肺炎等症狀發生的類型與位置。Habana Gaudi AI 處理器每次反覆運算耗時 859.1 秒,相較於 V100 GPU 的 1,047.7 秒,訓練速度快了 18%(請見圖 2)。另外,Habana Gaudi AI 處理器與分散式資料同時執行,可確保降低例行成本,並且提高單一節點的擴充性。
圖 2。胸部 X 光影像的疾病分類。
Habana® Gaudi®2 AI 處理器的期望提高,效能高達前一代處理器的 3 倍3
為了帶動 AI 藥物發現的未來,Taneishi 目前正設法更深入瞭解,由蛋白質配體結合所導致的 3D 結構與功能變化,並且正透過找出胺基酸殘基之間距離的分子動力學(MD)軌跡,訓練 AI 模型。在醫學 AI 領域,既然有大量複雜的資料可供使用,包括電子病歷、醫學影像、基因體,以及成千上萬患者的生活方式,除了醫療影像,他正打算推動以多模態資料建模的研究。
Intel 於 2022 年 5 月宣布第 2 代 Habana® Gaudi®2 AI 處理器。這個家族的最新產品運算效率更高,將製程節點從 16 奈米縮小為 7 奈米,並且提供 24 個 TPC,數量是前一代處理器的三倍。第二代處理器還有 96 GB 記憶體,容量是第一代的三倍,而且 GbE 連接埠的數量由 10 個增加到 24 個,網路功能大幅強化。這些改進之處大幅提高了效能,相較於 A100 GPU,ResNet-50 訓練處理量的效能大約提升 2 倍4,相較於第一代 Gaudi,效能提升 3 到 4.7 倍。3
Taneishi 表示:「選用 Habana Gaudi 與 Gaudi2 AI 處理器的開發者越多,提供支援的模型與架構就越多,部署 Habana Gaudi2 AI 處理器的障礙隨之消除。」 「我們預期更強大易用的雲端環境服務將會問世,而且我迫不及待想試用了。」