要約
視覚情報が視覚的注意/視線方向を推定できない極端なヘッドポーズ、オクルージョン、低解像度画像などの挑戦的な現実の状況では、音声信号は重要で補足的な情報を提供できます。
この論文では、オーディオガイド付きの粗い頭のポーズが、多作でない顔の視覚的注意の推定パフォーマンスをさらに向上させることができるかどうかを調べます。
話者の頭の姿勢を推定するために音声信号に注釈を付けることは難しいため、既製の最先端モデルを使用して、クロスモーダルの弱い監視を容易にします。
トレーニング フェーズ中に、フレームワークは、同期された視聴覚モダリティから補完的な情報を学習します。
私たちのモデルは、タスク固有の推論のために、利用可能なモダリティ、つまりオーディオ、ビジュアル、またはオーディオビジュアルのいずれかを利用できます。
AV-Gaze がこれらの特定のモダリティを使用してベンチマーク データセットでテストされると、複数のデータセットで競争力のある結果を達成しながら、困難なシナリオに対して高度に適応することに注目することは興味深いことです。
要約(オリジナル)
In challenging real-life conditions such as extreme head-pose, occlusions, and low-resolution images where the visual information fails to estimate visual attention/gaze direction, audio signals could provide important and complementary information. In this paper, we explore if audio-guided coarse head-pose can further enhance visual attention estimation performance for non-prolific faces. Since it is difficult to annotate audio signals for estimating the head-pose of the speaker, we use off-the-shelf state-of-the-art models to facilitate cross-modal weak-supervision. During the training phase, the framework learns complementary information from synchronized audio-visual modality. Our model can utilize any of the available modalities i.e. audio, visual or audio-visual for task-specific inference. It is interesting to note that, when AV-Gaze is tested on benchmark datasets with these specific modalities, it achieves competitive results on multiple datasets, while being highly adaptive toward challenging scenarios.
arxiv情報
著者 | Shreya Ghosh,Abhinav Dhall,Munawar Hayat,Jarrod Knibbe |
発行日 | 2022-08-12 01:50:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google