A Lightweight and Accurate Face Detection Algorithm Based on Retinaface

要約

本稿では、Retinaface に基づく軽量かつ高精度な顔検出アルゴリズム LAFD (Light and precision face detect) を提案します。
アルゴリズムのバックボーン ネットワークは、畳み込みカーネルのサイズ、反転残差ブロックのチャネル拡張乗数、および SE アテンション メカニズムの使用を調整する、修正された MobileNetV3 ネットワークです。
変形可能な畳み込みネットワーク (DCN) がコンテキスト モジュールに導入され、アルゴリズムはモデルの分類損失関数としてクロスエントロピー損失関数の代わりに焦点損失関数を使用します。
WIDERFACE データセットのテスト結果は、LAFD の平均精度が「簡単」、「中」、「難しい」検証サブセットでそれぞれ 94.1%、92.2%、82.1% であり、3.4%、4.0%、8.3 % 向上していることを示しています。
Retinaface と比較して %、優れたパフォーマンスの軽量モデル LFFD よりも 3.1%、4.1%、4.1% 高くなります。
入力画像が前処理され、長さ 1560 ピクセルまたは幅 1200 ピクセルにスケーリングされた場合、モデルは「ハード」検証サブセットで平均 86.2% の精度を達成します。
このモデルは軽量で、サイズはわずか 10.2MB です。

要約(オリジナル)

In this paper, we propose a lightweight and accurate face detection algorithm LAFD (Light and accurate face detection) based on Retinaface. Backbone network in the algorithm is a modified MobileNetV3 network which adjusts the size of the convolution kernel, the channel expansion multiplier of the inverted residuals block and the use of the SE attention mechanism. Deformable convolution network(DCN) is introduced in the context module and the algorithm uses focal loss function instead of cross-entropy loss function as the classification loss function of the model. The test results on the WIDERFACE dataset indicate that the average accuracy of LAFD is 94.1%, 92.2% and 82.1% for the ‘easy’, ‘medium’ and ‘hard’ validation subsets respectively with an improvement of 3.4%, 4.0% and 8.3% compared to Retinaface and 3.1%, 4.1% and 4.1% higher than the well-performing lightweight model, LFFD. If the input image is pre-processed and scaled to 1560px in length or 1200px in width, the model achieves an average accuracy of 86.2% on the ‘hard’ validation subset. The model is lightweight, with a size of only 10.2MB.

arxiv情報

著者 Baozhu Liu,Hewei Yu
発行日 2023-08-08 15:36:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, I.5.4 パーマリンク