Sound Localization from Motion: Jointly Learning Sound Direction and Camera Rotation

要約

私たちが知覚する画像と音は、頭を回転させると、微妙ではあるが幾何学的に一貫した変化を起こします。
このホワイト ペーパーでは、これらの手がかりを使用して、モーションからの音の定位 (SLfM) と呼ばれる問題を解決します。カメラの回転を推定し、音源を定位します。
私たちは、これらのタスクを自己監督のみによって解決することを学びます。
視覚モデルは画像のペアからカメラの回転を予測し、オーディオ モデルはバイノーラル サウンドから音源の方向を予測します。
これらのモデルをトレーニングして、互いに一致する予測を生成します。
テスト時には、モデルを個別にデプロイできます。
この困難な問題を解決するのに適した特徴表現を取得するために、クロスビューバイノーラル化を通じてオーディオビジュアル表現を学習する方法も提案します。つまり、与えられた画像と音声を別のビューから、あるビューからバイノーラルサウンドを推定します。
私たちのモデルは、実際のシーンと合成シーンの両方で正確な回転を正常に推定し、最先端の自己監視型アプローチと競合する精度で音源を特定できます。
プロジェクトサイト:https://ificl.github.io/SLfM/

要約(オリジナル)

The images and sounds that we perceive undergo subtle but geometrically consistent changes as we rotate our heads. In this paper, we use these cues to solve a problem we call Sound Localization from Motion (SLfM): jointly estimating camera rotation and localizing sound sources. We learn to solve these tasks solely through self-supervision. A visual model predicts camera rotation from a pair of images, while an audio model predicts the direction of sound sources from binaural sounds. We train these models to generate predictions that agree with one another. At test time, the models can be deployed independently. To obtain a feature representation that is well-suited to solving this challenging problem, we also propose a method for learning an audio-visual representation through cross-view binauralization: estimating binaural sound from one view, given images and sound from another. Our model can successfully estimate accurate rotations on both real and synthetic scenes, and localize sound sources with accuracy competitive with state-of-the-art self-supervised approaches. Project site: https://ificl.github.io/SLfM/

arxiv情報

著者 Ziyang Chen,Shengyi Qian,Andrew Owens
発行日 2023-03-20 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS パーマリンク