Lite-HRNet Plus: Fast and Accurate Facial Landmark Detection

要約

顔のランドマーク検出はドライバーの状態追跡に不可欠なテクノロジーであり、リアルタイム推定の需要が高まっています。
ランドマークの座標予測としては、ヒートマップを利用した手法が高い精度を実現することが知られており、Lite-HRNetは高速な推定を実現します。
しかし、Lite-HRNetでは、解像度の異なる特徴マップを結合する融合ブロックの計算コストが大きいという問題がまだ解決されていない。
また、HRNetV2で使用されている強力な出力モジュールはLite-HRNetには適用されません。
これらの問題を考慮して、私たちは Lite-HRNet Plus と呼ばれる新しいアーキテクチャを提案します。
Lite-HRNet Plus は 2 つの改善を実現しています。1 つはチャネル アテンションに基づく新しい融合ブロック、もう 1 つは多重解像度機能マップを使用する計算量が少ない新しい出力モジュールです。
2つの顔ランドマークデータセットに対する実験により、Lite-HRNet Plusは従来手法と比較してさらに精度が向上し、1,000万FLOPの範囲の計算量で最先端の精度を達成できることを確認しました。

要約(オリジナル)

Facial landmark detection is an essential technology for driver status tracking and has been in demand for real-time estimations. As a landmark coordinate prediction, heatmap-based methods are known to achieve a high accuracy, and Lite-HRNet can achieve a fast estimation. However, with Lite-HRNet, the problem of a heavy computational cost of the fusion block, which connects feature maps with different resolutions, has yet to be solved. In addition, the strong output module used in HRNetV2 is not applied to Lite-HRNet. Given these problems, we propose a novel architecture called Lite-HRNet Plus. Lite-HRNet Plus achieves two improvements: a novel fusion block based on a channel attention and a novel output module with less computational intensity using multi-resolution feature maps. Through experiments conducted on two facial landmark datasets, we confirmed that Lite-HRNet Plus further improved the accuracy in comparison with conventional methods, and achieved a state-of-the-art accuracy with a computational complexity with the range of 10M FLOPs.

arxiv情報

著者 Sota Kato,Kazuhiro Hotta,Yuhki Hatakeyama,Yoshinori Konishi
発行日 2023-08-23 13:43:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク