跳到主要內容
支援知識庫

為什麼量化模型格式保持 FP32 而不是 INT8?

內容類型: 產品資訊與文件   |   文章 ID: 000095064   |   最近查看日期: 2023 年 06 月 13 日

描述

  • 以 FP32 精確格式量化 ONNX 模型。
  • 執行訓練後量化後,執行 compress_model_weights 功能以縮小垃圾箱檔案的大小。
  • 編譯模型,並注意到模型的輸出是在 FP32 而不是 INT8。

解決方法

在量化期間,僅需要針對效能進行量化的作業。剩餘的作業在輸出中將維持為 FP32。

額外資訊

相關產品

本文章適用 3 產品。
Intel® Xeon Phi™ 處理器軟體 OpenVINO™ toolkit 效能程式庫

免責聲明

這個頁面的內容綜合了英文原始內容的人工翻譯譯文與機器翻譯譯文。本內容是基於一般資訊目的,方便您參考而提供,不應視同完整或準確的內容。如果這個頁面的英文版與譯文之間發生任何牴觸,將受英文版規範及管轄。 查看這個頁面的英文版。