要約
個人がどこを見ているかを予測するタスクである視線推定は、人間とコンピューターのインタラクションや仮想現実などの分野に直接応用される重要なタスクです。
制約のない環境では、顔や目の領域が見えにくくなる要因が多数あるため、視線の方向を推定することは困難です。
この研究では、コンピューター ビジョン アーキテクチャと注意ベースのモジュールにおける最近の開発を活用する、視線推定の強力なベースラインである CrossGaze を提案します。
これまでのアプローチとは異なり、私たちの方法は特殊なアーキテクチャを必要とせず、アーキテクチャに統合して 3D 視線推定のタスクに適応するすでに確立されたモデルを利用します。
このアプローチでは、任意のモジュールをより強力な機能抽出プログラムに置き換えることができるため、アーキテクチャのシームレスな更新が可能になります。
Gaze360 ベンチマークでは、私たちのモデルはいくつかの最先端の手法を上回り、平均角度誤差 9.94 度を達成しました。
私たちが提案したモデルは、視線推定における将来の研究開発の強力な基盤として機能し、現実世界のシナリオにおける実用的で正確な視線予測への道を開きます。
要約(オリジナル)
Gaze estimation, the task of predicting where an individual is looking, is a critical task with direct applications in areas such as human-computer interaction and virtual reality. Estimating the direction of looking in unconstrained environments is difficult, due to the many factors that can obscure the face and eye regions. In this work we propose CrossGaze, a strong baseline for gaze estimation, that leverages recent developments in computer vision architectures and attention-based modules. Unlike previous approaches, our method does not require a specialised architecture, utilizing already established models that we integrate in our architecture and adapt for the task of 3D gaze estimation. This approach allows for seamless updates to the architecture as any module can be replaced with more powerful feature extractors. On the Gaze360 benchmark, our model surpasses several state-of-the-art methods, achieving a mean angular error of 9.94 degrees. Our proposed model serves as a strong foundation for future research and development in gaze estimation, paving the way for practical and accurate gaze prediction in real-world scenarios.
arxiv情報
著者 | Andy Cătrună,Adrian Cosma,Emilian Rădoi |
発行日 | 2024-02-13 09:20:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google