與模型的 FP32 格式相比,使用OpenVINO™工具組時,FP16 格式的性能沒有提升
內容類型: 維護與效能 | 文章 ID: 000095716 | 最近查看日期: 2023 年 08 月 01 日
與 FP32 格式的相同模型相比,期望 FP16 格式能夠執行更快的推理。使用benchmark_app以應用程式預設設置運行兩種格式的推理,但在比較 FP16 格式模型與 FP32 格式模型時,性能沒有改進(更高的 FPS)。
若要在使用benchmark_app時以 F32 格式執行 FP32 模型,請為所選設備添加 -infer_precision f32。
例如:
$ benchmark_app -m intel/bert-large-uncased-whole-word-masking-squad-0001/FP32/bert-large-uncased-whole-word-masking-squad-0001.xml -d GPU -t 5 -api async -hint throughput -infer_precision f32
對於 GPU 外掛程式,GPU 基元的浮點精度是根據OpenVINO IR 中的操作精度選擇的,但 <壓縮的 f16 OpenVINO IR形式除外,該形式以精度執行 f16 。
對於 CPU 外掛程式,CPU 基元的預設浮點精度為 f32。為了支援 f16 OpenVINO™ IR,外掛程式在內部將所有 f16 值轉換為 f32,並且所有計算都使用 f32 的本機精度執行。在原生支援 bfloat16 計算(具有 AVX512_BF16 或 AMX 擴展)的平臺上,將自動使用 bf16 類型而不是 f32 來實現更好的性能(請參閱執行模式提示)。
有關 CPU/GPU 外掛程式資料類型的其他資訊,請參閱: