要約
ディナー パーティーなどの騒がしい会話環境では、人々は選択的な聴覚的注意を示すことがよくあります。つまり、特定の話者に集中し、他の話者を無視する能力を示します。
会話の中で誰かが誰の話を聞いているかを認識することは、社会的行動を理解できる技術や、特定の音源を増幅することで人間の聴覚を増強できるデバイスを開発するために不可欠です。
コンピューター ビジョンとオーディオの研究コミュニティは、シーン内の音源とスピーカーの認識に向けて大きく前進しました。
この作業では、自己中心的なビデオで聴覚的注意のターゲットをローカライズする問題、またはカメラ装着者の視野内で誰が聞いているかを検出する問題に焦点を当てることで、さらに一歩踏み出します。
新しい挑戦的な選択的聴覚注意ローカリゼーションの問題に取り組むために、自己中心的なビデオとマルチチャンネル オーディオを使用してカメラ装着者の聴覚的注意のヒートマップを予測するエンド ツー エンドのディープ ラーニング アプローチを提案します。
私たちのアプローチは、時空間的な視聴覚機能とシーンに関する全体論的推論を活用して予測を行い、挑戦的な複数話者の会話データセットで一連のベースラインを上回ります。
プロジェクトページ: https://fkryan.github.io/saal
要約(オリジナル)
In a noisy conversation environment such as a dinner party, people often exhibit selective auditory attention, or the ability to focus on a particular speaker while tuning out others. Recognizing who somebody is listening to in a conversation is essential for developing technologies that can understand social behavior and devices that can augment human hearing by amplifying particular sound sources. The computer vision and audio research communities have made great strides towards recognizing sound sources and speakers in scenes. In this work, we take a step further by focusing on the problem of localizing auditory attention targets in egocentric video, or detecting who in a camera wearer’s field of view they are listening to. To tackle the new and challenging Selective Auditory Attention Localization problem, we propose an end-to-end deep learning approach that uses egocentric video and multichannel audio to predict the heatmap of the camera wearer’s auditory attention. Our approach leverages spatiotemporal audiovisual features and holistic reasoning about the scene to make predictions, and outperforms a set of baselines on a challenging multi-speaker conversation dataset. Project page: https://fkryan.github.io/saal
arxiv情報
著者 | Fiona Ryan,Hao Jiang,Abhinav Shukla,James M. Rehg,Vamsi Krishna Ithapu |
発行日 | 2023-03-28 14:52:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google