要約
私たちが知覚する画像と音は、頭を回転させると、微妙ですが幾何学的に一貫した変化を受けます。
この論文では、これらの手がかりを使用して、カメラの回転の推定と音源の位置特定を共同で行う、Sound Localization from Motion (SLfM) と呼ぶ問題を解決します。
私たちは自己監視を通じてのみこれらの課題を解決することを学びます。
ビジュアル モデルは 1 対の画像からカメラの回転を予測し、オーディオ モデルはバイノーラル サウンドから音源の方向を予測します。
これらのモデルをトレーニングして、互いに一致する予測を生成します。
テスト時には、モデルを個別にデプロイできます。
この困難な問題の解決に適した特徴表現を取得するために、クロスビューバイノーラル化を通じて視聴覚表現を学習する方法も提案します。つまり、あるビューからのバイノーラルサウンドを、別のビューから与えられた画像と音声から推定します。
私たちのモデルは、現実のシーンと合成シーンの両方で正確な回転を推定することに成功し、最先端の自己教師ありアプローチに匹敵する精度で音源の位置を特定できます。
プロジェクトサイト:https://ificl.github.io/SLfM/
要約(オリジナル)
The images and sounds that we perceive undergo subtle but geometrically consistent changes as we rotate our heads. In this paper, we use these cues to solve a problem we call Sound Localization from Motion (SLfM): jointly estimating camera rotation and localizing sound sources. We learn to solve these tasks solely through self-supervision. A visual model predicts camera rotation from a pair of images, while an audio model predicts the direction of sound sources from binaural sounds. We train these models to generate predictions that agree with one another. At test time, the models can be deployed independently. To obtain a feature representation that is well-suited to solving this challenging problem, we also propose a method for learning an audio-visual representation through cross-view binauralization: estimating binaural sound from one view, given images and sound from another. Our model can successfully estimate accurate rotations on both real and synthetic scenes, and localize sound sources with accuracy competitive with state-of-the-art self-supervised approaches. Project site: https://ificl.github.io/SLfM/
arxiv情報
著者 | Ziyang Chen,Shengyi Qian,Andrew Owens |
発行日 | 2023-08-21 14:59:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google