菲數科技利用 FA728Q 加速卡,加速低延遲交易(LLT)應用

菲數科技利用 Intel® Stratix® 10 FPGA 與開放原始碼 Open FPGA Stack (OFS) 基礎架構,開發高效能 FPGA 加速卡。

概覽

  • FA728Q FPGA 技術加速卡現已上市,這是配備 Intel® Stratix® 10 FPGA 的高效能 PCIe* 技術加速卡。

  • 菲數科技利用 OFS 基礎架構,加速開發採用整合式 TCP/IP 卸載引擎的自訂 FPGA Interface Manager(FIM)。

  • 若為 LLT 這類時間緊迫的網路應用,FA728Q 加速卡的 TCP 傳輸延遲低於 100 ns。

author-image

作者

菲數科技圖誌總結

LLT 和其他有時效性的應用,是理想的 FPGA 加速使用案例。為了因應這個市場,菲數科技開發了 FA728Q FPGA 技術加速卡。FA728Q 加速平台提供強大的 FPGA 資源、豐富的儲存容量,以及終端使用者易於使用的介面。為了加速、簡化及標準化加速板開發工作,菲數科技採用 OFS 基礎架構,為利用「採納後量身打造」法加速開發 FPGA 解決方案提供了強大的方法。菲數科技利用 OFS 基礎架構,將自家的 TCP/IP 卸載引擎整合至開放原始碼基礎 FIM(一般稱為 FPGA「殼層」)。

背景與挑戰

LLT 是金融證券電子化交易的新式實務做法,盡可能縮短下單與執行訂單之間的時間延遲。大型投資銀行、對沖基金和其他金融機構通常採用這種方法。過去,交易是以人工而非電子方式執行,交易執行時間介於幾秒到幾分鐘不等。然而,硬體和相應軟體技術日新月異,系統經過程式化之後,可以根據特定市場訊號與變動情況自動做出買入或賣出決定,將交易執行時間縮短至毫秒。近年來 FPGA 技術加速產品愈加普及,交易時間進一步縮短至微秒或次微秒。

同時,LLT 系統越來越常採用各交易公司特定訂單簿互動交易策略獨有的複雜交易演算法模型。解決方案需要通用處理器與專用協同處理器運算,才能滿足交易公司的功率與效能需求,例如異質運算。FPGA 很適合實施量身打造的交易演算法,不過這類硬體加速裝置的程式化工作曠日廢時,難以配合 FPGA 系列日新月異移轉。

菲數科技總部設於中國,積極致力於滿足資料中心異質加速與高效能運算的需求,包括 LLT 市場區隔。該公司在市場推出 FPGA 技術硬體加速器平台、FPGA 加速智慧財產權(IP)功能,以及 FPGA 技術平台設計服務。

解決方案

為了滿足 LLT 應用程式的低延遲、標準化與可攜性需求,菲數科技開發了 FA728Q 加速卡,並將整合式 TCP/IP 卸載引擎轉化為執行個體。為此,菲數科技修改了 OFS 開放原始碼版本提供的基礎 FIM。有了可組裝的架構和「採納後量身打造」法,OFS 讓他們只要將演算法移植到 FA728Q 加速卡即可,而且在修改微乎其微的情況下利用其他提供的基礎架構,包括 OFS 軟體驅動程式與資料庫。

在 fa728q 實施的 OFS 與 toe 解決方案方塊圖
圖 1.在 FA728Q 實施的 OFS 與 TCP/IP 卸載引擎(TOE)解決方案

 

OFS 這種開放原始碼軟硬體基礎架構,提供快速啓動自訂 FPGA 技術板卡或工作負載開發所需的一切關鍵設計、軟體與基礎架構元件。OFS 基礎架構包含 FIM(通常稱為「殼層」)和 Accelerator Functional Unit(AFU)區,也就是指定的工作負載開發區。開發者利用 OFS、FPGA 板卡或 FIM 或基礎 FIM,可運用開放原始碼基礎架構,根據目標應用或產業為板卡快速開發量身打造的 FIM。OFS 還隨附 oneAPI Accelerator Support Package(ASP),可用於將 FPGA 硬體與設計流程抽象化。OFS 讓開發者更省時、提高不同世代 FPGA 的可攜行、採用產業標準介面,並且利用 oneAPI 提供選用的高階設計流程。

FA728Q 加速卡現已上市,是高階 PCIe 技術的 FPGA 加速板,提供 32 GB 內建 DDR4 記憶體和三個 QSFP28 插槽,每個介面支援高達 100 GbE。此外,FA728Q 加速卡透過 OFS 基礎架構獲得 oneAPI 支援,客戶可以在 RTL 實施核心,或是將演算法從 CPU/GPU 移轉到高階設計語言,包括 C/C++。Intel oneAPI Base Toolkit 也協助將核心整合至 FPGA 資源並最佳化,進一步縮短上市時間。

菲數科技也已經開始開發 Intel Agilex® FPGA 技術板卡,包括採用 Intel Agilex7 FPGA I 系列的 FA927S 卡,以及採用 Intel Agilex 7 FPGA F 系列的 FA925E 卡。

FA927S 卡的收發器速率高達 116 Gbps,具備 PCIe 5.0 x16 以及 Compute Express Link(CXL)支援。它鎖定頻寬資源需求高的應用,目前可用於採用 RTL 技術的開發工作。FA927S 卡將在 2024 年第一季支援 OFS。

另一方面,FA925E 卡提供四組 8 GB 及四組 4 GB DDR4,共計內建 48 GB 記憶體。它是專為外部記憶體容量與頻寬需求高的應用而設計。這款卡為 OFS 提供完整支援,將於 2023 年底上市。 請參見表 1,比較三款加速卡。

表 1. 比較表

 

FA728Q 板卡

FA728Q

FA927S 板卡

FA927S

FA925E 板卡

FA925E

功率 215 W 200W 150 W
散熱需求 主動式/被動式(選用) 主動式/被動式(選用) 主動式/被動式(選用)
外型規格 3/4 長、全高、雙插槽 PCIe 半長、全高、雙插槽 PCIe 3/4 長、全高、雙插槽 PCIe
網路介面 三個 QSFP28 連接埠:3 x 100 GbE / 40 GbE 兩個 QSFP28 連接埠:2 x 100 GbE / 40 GbE 兩個 QSFP28 連接埠 2 x 100 GbE / 40 GbE
記憶體介面 4 x 8 GB DDR4,2,400 MHz 支援 ECC 4 x 8 GB DDR4,2,400 MHz 支援 ECC 4 x 8 GB 與 4 x 4 GB DDR4,2,400 MHz 支援 ECC
PCIe 介面 - 5.0 x16 -
擴充套件介面 - 2 x8 薄型 SAS 連接器,適用於 PCIe 4.0 擴充卡 -
管理連接埠 Micro-USB Micro-USB Micro-USB
FPGA 裝置 1SX280HN2F43E2VG AGIB027R29A1E2VR3 AGFB027R25A2E2V

結果

菲數科技在 FA728Q 卡實施的卸載引擎 IP 功能針對延遲與效能最佳化,滿足 LLT 需求。使用加速模式時,TCP 傳輸延遲不到 100ns,確保時間緊迫的網路應用獲得穩定且低延遲的連線。表 2. 顯示各種連線延遲的量測值。表 3. 顯示高頻寬 PCIe 3.0 x16 與 DDR 介面。

規格 超值
最大 TCP/UDP 連線 TCP 為 63,UDP 為 63
TCP TX 延遲(加速模式) 15 個時脈
TCP TX 延遲(非加速模式) 46 個時脈
TCP RX 延遲 32 個時脈
UDP TX 延遲 512 位元組封包為 42 個時脈,128 位元組封包為 18 個時脈
UDP RX 延遲 23 個時脈
oneAPI 核心的時脈回授延遲 18 個時脈

表 2. TCP/IP 卸載引擎(TOE)規格

請注意:

1.一個時脈週期為 6.4ns

2.TX 延遲的計算始於封包 EOP 的下降邊緣,止於 XGMII TXC 的有效資料

3.RX 延遲的計算始於封包 SOP,止於 XGMII RXC 的有效資料

資料路徑 頻寬
主機寫入記憶體 8,192-KB 區塊為 8,287.68 MBps
主機讀取記憶體 8,192-KB 區塊為 8,241.19 MBps
核心寫入記憶體 4,096-MB 區塊為 16,909.6 MBps
核心讀取記憶體 4,096-MB 區塊為 17,340.3 MBps

表 3. 每個介面提供的頻寬

ofs 平台方塊圖中的高頻寬資料路徑
圖 2.OFS 平台的高頻寬資料路徑

 

OFS 協助我們更輕鬆快速地為客戶建立必要的加速平台,包括軟體 API 驅動程式,以及作為一組完整設備的基礎硬體。

菲數科技公司,Cheng Ailian。

如何使用 OFS 馬上開始加速 FPGA

FPGA 開發者可以利用開放原始碼說明文件與原始程式碼,充分運用 FA728Q 加速卡與 OFS 支援的板卡,開始建立自訂的工作負載。

下表概述開發者可以如何使用菲數科技加速板,開始開發 FPGA 技術的工作負載。

利用 FPGA 加速工作負載
步驟 1:選取板件 檢視菲數科技 OFS 支援的板卡:FA728Q 加速卡
步驟 2:評估 OFS 開源資源

菲數科技會提供相應版本的 OFS 技術說明文件。

步驟 3:存取開源軟硬體程式碼

菲數科技會提供相應的 OFS 軟硬體程式碼。這是由 Intel 提供的 OFS 基礎程式碼特定發行版。

步驟 4:使用 RTL 或 C/C++(使用 oneAPI)開發工作負載

遵循 OFS RTL 流程

或是

OFS 支援編譯 oneAPI 核心。利用 oneAPI 開發流程,以 C/C++ 建置 FPGA 工作負載。