要約
視線は、人間の感情分析において重要な非言語的手がかりである。最近の視線推定に関する研究では、顔全体から得られる情報がパフォーマンスに有効であることが示されている。この考えをさらに推し進め、我々は、コンピュータビジョンにおける長年の研究とは対照的に、顔全体画像を入力とする外観に基づく方法を提案する。本手法は、顔画像を畳み込みニューラルネットワークで符号化し、特徴マップに空間的な重みをかけることで、顔の異なる領域の情報を柔軟に抑制・強調する。本手法は、MPIIGazeで最大14.3%、EYEDIAPで最大27.7%の改善を達成し、人に依存しない3D視線推定において、2Dと3Dの両方で最先端技術を大幅に上回ることを示しました。さらに、この改善は、異なる照明条件や視線方向にわたって一貫しており、特に最も困難な極端な頭部ポーズに対して顕著であることを示す。
要約(オリジナル)
Eye gaze is an important non-verbal cue for human affect analysis. Recent gaze estimation work indicated that information from the full face region can benefit performance. Pushing this idea further, we propose an appearance-based method that, in contrast to a long-standing line of work in computer vision, only takes the full face image as input. Our method encodes the face image using a convolutional neural network with spatial weights applied on the feature maps to flexibly suppress or enhance information in different facial regions. Through extensive evaluation, we show that our full-face method significantly outperforms the state of the art for both 2D and 3D gaze estimation, achieving improvements of up to 14.3% on MPIIGaze and 27.7% on EYEDIAP for person-independent 3D gaze estimation. We further show that this improvement is consistent across different illumination conditions and gaze directions and particularly pronounced for the most challenging extreme head poses.
arxiv情報
| 著者 | Xucong Zhang,Yusuke Sugano,Mario Fritz,Andreas Bulling |
| 発行日 | 2023-01-09 18:39:09+00:00 |
| arxivサイト | arxiv_id(pdf) |