為何在模型上套用不同的權重會影響推斷效能?
內容類型: 疑難排解 | 文章 ID: 000088030 | 最近查看日期: 2023 年 05 月 15 日
模型重量與精確度 (FP32、FP16、INT8) 會影響推斷效能。
使用 FP32 格式會導致重量的完整分配,並稱為單一精確浮點。
同時,FP16 與 INT8 格式均為壓縮重量格式,壓縮尺寸較小。這些壓縮的利器是模型的準確性,或也稱為量化錯誤。
為代表資料而配置的位越多,它們所能代表的範圍就越廣,而且可能代表模型的準確性越高。然而,更大的資料需要更大的記憶體空間來儲存,需要更高的記憶體頻寬才能四處傳輸,以及更多的運算資源和時間被用完。
Intel® 發行版 OpenVINO™ 工具組 效能標竿結果 顯示不同重量格式或精確度之間的效能明顯差異。