美團加速視覺 AI 推斷服務

第 4 代 Intel® Xeon® 可擴充處理器協助美團加速視覺 AI 推斷服務並最佳化成本。

概覽:

  • 美團是中國一家提供生活方式服務的領先電子商務平台。

  • 為了加速 AI 推斷,美團利用第 4 代 Intel® Xeon® 可擴充處理器和內建的 Intel® Advanced Matrix Extensions(Intel® AMX)等進階硬體功能。

author-image

作者

挑戰

對美團而言,視覺 AI 已成為推動商業模式創新、為使用者提供更準確且更個人化的網路服務,以及增強競爭優勢的關鍵。然而,美團的視覺 AI 推斷也面臨運算能力和成本方面的各種挑戰。

效能

隨著美團的業務和使用者規模持續擴大,更多應用程式需要透過視覺 AI 開發智慧流程。美團必須改善視覺 AI 推斷的輸送量,同時不能損及準確性,以支援更智慧的作業。

成本

需要龐大的基礎架構投資,才能對大型資料執行視覺 AI 推斷。雖然獨立 GPU 能滿足效能要求,但價格相對較高。對於低流量長尾模式的推斷服務,CPU 往往更具成本效益。

靈活性

美團希望透過跨多個架構的資源靈活調度,提高視覺 AI 服務的敏捷性,並滿足長尾情境的 AI 推斷需求。

解決方案概覽

目前,人工智慧(AI)支援的電腦視覺已成為企業取得資料洞察力並推動業務智慧轉型的重要手段。透過利用增強的深度學習神經網路,視覺 AI 以更複雜的方式擷取資料,將分析內容提升至新的境界、最佳化工作效率、降低成本、改善收益,以及增強客戶滿意度。隨著視覺資料的爆炸式成長和持續的業務發展,企業希望獲得更高的投資報酬,同時加速電腦視覺 AI 模型的訓練及改善推斷效能。

作為一家領先的零售技術公司,美團致力透過「零售+技術」策略幫大家吃得更好,生活更好。美團高度重視用創新的視覺 AI 技術為餐飲、外出、旅遊、購物和娛樂等產業注入動能。為了加速 AI 推斷,美團利用第 4 代 Intel® Xeon® 可擴充處理器和內建的 Intel® Advanced Matrix Extensions(Intel® AMX)等進階硬體功能。透過將模型從 FP32 轉換為 BF16 等方法,傳統視覺模型的推斷效能可以提高約 3.38 – 4.13 倍。1 美團將這些技術與動態擴展等標題服務最佳化策略相結合,線上資源的整體效率提高了 3 倍以上,並節省 70% 的服務成本。2

圖 1。視覺 AI 技術在美團企業中的典型應用。

美團利用視覺 AI 應用程式推動智慧轉型

視覺 AI 已滲透到美團業務的內容創作、內容審查、發佈、使用者互動、價值實現和其他環節。美團視覺 AI 透過情境型產品和創新工具為業界注入動能。它已成功應用於智慧影像處理、商家註冊憑證識別、QR 碼自行車鎖、藥品包裝掃描、身分驗證等情境,實現商務智慧轉型。

圖 2。美團微服務型視覺 AI 演算法流程。

為了進一步最佳化 AI 推斷服務,美團將原始演算法服務流程轉變為微服務型視覺 AI 演算法流程,將 CPU 服務與其他加速器服務分開,確保不同的工作負載能在不同的裝置執行。透過中間層的調度服務執行調度,進而提高硬體使用率。

面對視覺 AI 推斷服務帶來的成本挑戰,美團為低流量長尾模式的推斷服務採用 CPU 型策略。Intel® Xeon® 可擴充處理器用於以相對低的工作負載壓力和延遲要求處理模型推斷服務。這種方法可確保美團有效利用現有的 CPU 資源,降低 GPU 部署和運維成本。

圖 3。美團 CPU 型的低流量長尾模式推斷服務。

美團也採用流量敏感的標題服務最佳化策略,將對延遲敏感、需要高穩定性、且流量波動的線上作業與對延遲不敏感、只需低穩定性且流量一致的離線批次處理作業分開。透過動態擴充,可將許多資源在離峰期間釋放,進行離線批次處理,進而節省資源並改善整體 AI 推斷效能。

圖 4。美團視覺 AI 推斷最佳化策略。

第 4 代 Intel® Xeon® 可擴充處理器為視覺 AI 的推斷效能注入動能

為了進一步加速視覺 AI 推斷服務的效能,美團利用第 4 代 Intel® Xeon 可擴充處理器、整合的 Intel AMX 加速器和 Intel® Integrated Performance Primitives(Intel® IPP)等軟體套件進行最佳化。

第 4 代 Intel Xeon 可擴充處理器透過創新架構增加每週期指令數(IPC)。透過每插槽最多 60 個核心以及對 8 通道 DDR5 記憶體的支援,處理器可改善記憶體頻寬和速度,同時達到每 PCIe 5.0(80 通道)更高的記憶體頻寬。第 4 代 Intel Xeon 可擴充處理器提供現代效能與安全性,以及隨業務需求擴充的能力。透過內建加速器,處理器為使用者提供跨 AI、分析、雲端和微服務、網路、資料庫、儲存裝置和其他工作負載的效能最佳化。與強大的生態系統結合時,第 4 代 Intel Xeon 可擴充處理器可協助使用者建構更有效率且更安全的基礎架構。

第 4 代 Intel Xeon 可擴充處理器將 AI 效能提升至新境界,並配備創新的 Intel AMX 加速器。與先前的 Intel Xeon 可擴充處理器提供的 Intel® Advanced Vector Extensions 512(Intel® AVX-512)不同,Intel AMX 採用新的指令集和電路設計。提供矩陣運算可顯著增加 AI 應用程式每週期指令數,並增強 AI 工作負載的訓練和推斷效能。

圖 5。相較於Intel® AVX-512,Intel® AMX 大幅提高矩陣運算效率。3

在實際工作負載中,Intel AMX 可支援 BF16 和 INT8 資料類型。BF16 與標準 IEEE-FP32 具有相同的動態範圍,但精確度低於 FP32。在大多數情況下,BF16 與 FP32 具有相同的模型推斷精確度,但 BF16 只需處理大小為 FP32 一半的資料,傳輸量高出很多,且記憶體資源需求低得多。Intel AMX 每實體核心每週期可實現 2048 個 INT8 運算和 1024 個 BF16 運算,3與 Intel® AVX-512 加速技術相比,大幅提高 AI 工作負載的效率。

圖 6.Intel® IPEX 架構。

美團也整合 Intel® Extension forPyTorch(Intel® IPEX)以加速 PyTorch。Intel IPEX 是 Intel 推出的一個開源擴充專案,基於 PyTorch 擴充機制實現。藉由提供額外的軟體最佳化充分運用硬體功能,Intel IPEX 透過原生 PyTorch 提高在 Intel® 處理器上進行深度學習推斷和訓練的運算效能。

圖 7.FP32/BF16 模型推斷效能對照表。1

美團透過 Intel AMX 加速技術動態地將各種視覺 AI 模型的資料類型從 FP32 轉換到 BF16,藉此提高輸送量,並在精確度損失可接受的情況下加速推斷過程。美團將使用 Intel AMX 加速技術轉換後的 BF16 模型的推斷效能與基準 FP32 模型進行比較,進而驗證最佳化後的效能。如圖 7 所示,轉換到 BF16 後,模型的推斷效能可提高 3.38 – 4.13 倍。「Top1」和「Top5」區段的大部分精確度損失可控制在 0.01% –0.03% 範圍內。1

優勢

透過採用第 4 代 Intel Xeon 可擴充處理器,以及整合微服務轉換、線上/離線分離、動態擴充和最佳化啟動等最佳化策略,美團獲得了多種益處。

  • Vit-p32、Twins-svt-small、Twins-pcpvt-small、Swin-tiny 和其他模型的最佳化後效能提高了 3.38 – 4.13 倍,而「Top1」和「Top5」區段的大部分精確度損失可控制在 0.01% – 0.03% 範圍內1。線上資源的整體效率提高了 3 倍以上。2
  • 由於效能提高,美團可充分利用現有基礎架構的潛力、降低視覺 AI 服務的投資需求,並將服務成本降低 70%。2
  • 敏捷資源調度可支援視覺 AI 服務的高效創新。

展望

美團的視覺 AI 推斷最佳化顯示,與 Intel AMX 加速引擎整合的第 4 代 Intel Xeon 可擴充處理器可增強 AI 推斷效能,並降低視覺 AI 推斷服務的總擁有成本(TCO)。美團和 Intel 也致力使用硬體創新和軟體最佳化不斷提高推斷效能,並充分釋放視覺 AI 服務的價值。

隨著智慧和數位轉型的熱潮不減,Intel 將與美團和其他夥伴進一步合作,透過運算、儲存、網路和其他功能增強業務創新、加速 AI 領域的發展,並推動 AI 技術與實踐的落實。Intel 及其夥伴旨在為終端使用者提供更準確且更個人化的服務,同時降低 AI 部署的效能、成本與技術門檻,並推動業界的智慧轉型。

關於美團

作為一家技術驅動的零售公司,美團的策略重點是「零售+技術」,並堅守使命:「幫大家吃得更好,生活更好。」 自2010 年 3 月成立以來,美團一直在供需雙方推動服務和商品零售的數位升級。我們與合作夥伴一同為消費者提供優質服務。2018 年 9 月 20日,美團在香港聯合交易所有限公司主板上市。美團向來都是一家以客戶為本的公司,而我們也會持續增加新技術研發的投資。美團將與所有夥伴攜手合作,履行我們的社會責任,為社會創造更多價值。

下載 PDF ›