要約
視線は、人間の感情を分析するための重要な非言語的手がかりです。
最近の視線推定の研究では、顔全体の領域からの情報がパフォーマンスに利益をもたらす可能性があることが示されました。
このアイデアをさらに推進して、コンピューター ビジョンにおける長年の研究とは対照的に、顔全体の画像のみを入力として受け取る外観ベースの方法を提案します。
私たちの方法では、畳み込みニューラル ネットワークを使用して顔画像をエンコードし、特徴マップに空間重みを適用して、さまざまな顔領域の情報を柔軟に抑制または強調します。
広範な評価を通じて、当社のフルフェイス手法は 2D と 3D の両方の視線推定において最新技術を大幅に上回り、人物に依存しない 3D 視線推定において MPIGaze で最大 14.3%、EYEDIAP で 27.7% の改善を達成したことがわかりました。
さらに、この改善はさまざまな照明条件や視線方向にわたって一貫しており、特に最も困難な極端な頭のポーズで顕著であることを示します。
要約(オリジナル)
Eye gaze is an important non-verbal cue for human affect analysis. Recent gaze estimation work indicated that information from the full face region can benefit performance. Pushing this idea further, we propose an appearance-based method that, in contrast to a long-standing line of work in computer vision, only takes the full face image as input. Our method encodes the face image using a convolutional neural network with spatial weights applied on the feature maps to flexibly suppress or enhance information in different facial regions. Through extensive evaluation, we show that our full-face method significantly outperforms the state of the art for both 2D and 3D gaze estimation, achieving improvements of up to 14.3% on MPIIGaze and 27.7% on EYEDIAP for person-independent 3D gaze estimation. We further show that this improvement is consistent across different illumination conditions and gaze directions and particularly pronounced for the most challenging extreme head poses.
arxiv情報
| 著者 | Xucong Zhang,Yusuke Sugano,Mario Fritz,Andreas Bulling |
| 発行日 | 2023-05-16 10:00:49+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google