要約
過去 10 年間の深層学習テクノロジーの急速な発展により、外観に基づく視線推定は、コンピューター ビジョンと人間とコンピューターのインタラクションの両方の研究コミュニティから大きな注目を集めています。
ソフト アテンション、ハード アテンション、両目の非対称性、特徴のもつれの解消、回転の一貫性、対比学習などのさまざまなメカニズムを備えた魅力的な方法が提案されました。
これらの方法のほとんどは単一の顔または複数の領域を入力として受け取りますが、視線推定の基本的なアーキテクチャはまだ十分に検討されていません。
この論文では、ResNet アーキテクチャのいくつかの単純なパラメータを調整することで、3 つの一般的なデータセットに対する視線推定タスクの既存の最先端の手法のほとんどを上回るパフォーマンスを発揮できるという事実を明らかにします。
私たちは広範な実験を行った結果、ストライド数、入力画像の解像度、およびマルチ領域アーキテクチャが視線推定のパフォーマンスにとって重要である一方、その有効性は入力顔画像の品質に依存するという結論に達しました。
ResNet-50 をバックボーンとして使用することで、ETH-XGaze で 3.64、MPIIFaceGaze で 4.50、Gaze360 度視線推定誤差で 9.13 という 3 つのデータセットで最先端のパフォーマンスを取得しました。
要約(オリジナル)
With the rapid development of deep learning technology in the past decade, appearance-based gaze estimation has attracted great attention from both computer vision and human-computer interaction research communities. Fascinating methods were proposed with variant mechanisms including soft attention, hard attention, two-eye asymmetry, feature disentanglement, rotation consistency, and contrastive learning. Most of these methods take the single-face or multi-region as input, yet the basic architecture of gaze estimation has not been fully explored. In this paper, we reveal the fact that tuning a few simple parameters of a ResNet architecture can outperform most of the existing state-of-the-art methods for the gaze estimation task on three popular datasets. With our extensive experiments, we conclude that the stride number, input image resolution, and multi-region architecture are critical for the gaze estimation performance while their effectiveness dependent on the quality of the input face image. We obtain the state-of-the-art performances on three datasets with 3.64 on ETH-XGaze, 4.50 on MPIIFaceGaze, and 9.13 on Gaze360 degrees gaze estimation error by taking ResNet-50 as the backbone.
arxiv情報
著者 | Yunhan Wang,Xiangwei Shi,Shalini De Mello,Hyung Jin Chang,Xucong Zhang |
発行日 | 2023-08-18 14:41:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google