要約
シーン中の発音体を認識することは、具現化AIにおける長年の課題であり、ロボティクスやAR/VR/MRなど多様な応用が期待されている。そのため、カメラとマイクを同期させたセンサを用いて、音声信号を条件として入力画像中の対象音物体のマスクを識別するAVS(Audio-Visual Segmentation)が近年進められている。しかし、このパラダイムは、2次元画像から3次元シーンへのマッピングが欠落しているため、実世界での運用にはまだ不十分である。この基本的な限界に対処するために、我々は、既存のAVSを3D出力空間に拡張する、3Dオーディオビジュアルセグメンテーションという新しい研究課題を導入する。この問題では、カメラのエクストレインシクスのばらつき、音声の散乱、オクルージョン、および発音オブジェクトのカテゴリ間の多様な音響特性により、より多くの課題が提起される。この研究を促進するために、34のシーンと7つのオブジェクトカテゴリにおいて、シングルインスタンスとマルチインスタンス設定下で、接地された空間オーディオとフォトリアリスティックな3Dシーン環境を提供する、非常に最初のシミュレーションベースのベンチマーク、3DAVS-S34-O7を作成します。これは、ハビタットシミュレータを再利用し、サウンドオブジェクトの位置と対応する3Dマスクの包括的なアノテーションを生成することで可能となった。続いて、我々は、空間的な音声を意識したマスクの位置合わせと精密化を通じて、事前学習された2Dオーディオビジュアル基礎モデルから得られるすぐに使える知識を3Dビジュアルシーン表現と相乗的に統合することを特徴とする新しいアプローチ、EchoSegnetを提案する。広範な実験により、EchoSegnetは、我々の新しいベンチマークにおいて、3D空間で効果的に音オブジェクトをセグメンテーションできることが実証されており、これは、具現化AIの分野における重要な進歩である。プロジェクトページ: https://surrey-uplab.github.io/research/3d-audio-visual-segmentation/
要約(オリジナル)
Recognizing the sounding objects in scenes is a longstanding objective in embodied AI, with diverse applications in robotics and AR/VR/MR. To that end, Audio-Visual Segmentation (AVS), taking as condition an audio signal to identify the masks of the target sounding objects in an input image with synchronous camera and microphone sensors, has been recently advanced. However, this paradigm is still insufficient for real-world operation, as the mapping from 2D images to 3D scenes is missing. To address this fundamental limitation, we introduce a novel research problem, 3D Audio-Visual Segmentation, extending the existing AVS to the 3D output space. This problem poses more challenges due to variations in camera extrinsics, audio scattering, occlusions, and diverse acoustics across sounding object categories. To facilitate this research, we create the very first simulation based benchmark, 3DAVS-S34-O7, providing photorealistic 3D scene environments with grounded spatial audio under single-instance and multi-instance settings, across 34 scenes and 7 object categories. This is made possible by re-purposing the Habitat simulator to generate comprehensive annotations of sounding object locations and corresponding 3D masks. Subsequently, we propose a new approach, EchoSegnet, characterized by integrating the ready-to-use knowledge from pretrained 2D audio-visual foundation models synergistically with 3D visual scene representation through spatial audio-aware mask alignment and refinement. Extensive experiments demonstrate that EchoSegnet can effectively segment sounding objects in 3D space on our new benchmark, representing a significant advancement in the field of embodied AI. Project page: https://surrey-uplab.github.io/research/3d-audio-visual-segmentation/
arxiv情報
著者 | Artem Sokolov,Swapnil Bhosale,Xiatian Zhu |
発行日 | 2024-11-04 16:30:14+00:00 |
arxivサイト | arxiv_id(pdf) |