Segment Beyond View: Handling Partially Missing Modality for Audio-Visual Semantic Segmentation

要約

拡張現実 (AR) デバイスは、著名なモバイル インタラクション プラットフォームとして台頭していますが、特に対向車に関してユーザーの安全性の面で課題に直面しています。
一部のソリューションはオンボード カメラ アレイを利用していますが、これらのカメラは多くの場合、正面または下向きの視点で視野 (FoV) が限られています。
これに対処して、新しいビュー外セマンティック セグメンテーション タスクと、新しいオーディオビジュアル セマンティック セグメンテーション手法であるセグメント ビヨンド ビュー (SBV) を提案します。
SBV は、教師と生徒の蒸留モデル (Omni2Ego) を使用して、FoV を超えた情報を欠落する視覚モダリティを聴覚情報で補完します。
このモデルは、パノラマ情報を利用する視覚教師、8 チャンネル オーディオを使用する聴覚教師、および限られた FoV とバイノーラル オーディオを入力としてビューを取得し、FoV の外側のオブジェクトのセマンティック セグメンテーションを生成する視聴覚生徒で構成されます。
SBV は比較評価において既存のモデルを上回っており、さまざまな FoV 範囲およびモノラルオーディオ設定において一貫したパフォーマンスを示します。

要約(オリジナル)

Augmented Reality (AR) devices, emerging as prominent mobile interaction platforms, face challenges in user safety, particularly concerning oncoming vehicles. While some solutions leverage onboard camera arrays, these cameras often have limited field-of-view (FoV) with front or downward perspectives. Addressing this, we propose a new out-of-view semantic segmentation task and Segment Beyond View (SBV), a novel audio-visual semantic segmentation method. SBV supplements the visual modality, which miss the information beyond FoV, with the auditory information using a teacher-student distillation model (Omni2Ego). The model consists of a vision teacher utilising panoramic information, an auditory teacher with 8-channel audio, and an audio-visual student that takes views with limited FoV and binaural audio as input and produce semantic segmentation for objects outside FoV. SBV outperforms existing models in comparative evaluations and shows a consistent performance across varying FoV ranges and in monaural audio settings.

arxiv情報

著者 Renjie Wu,Hu Wang,Feras Dayoub,Hsiang-Ting Chen
発行日 2024-09-05 16:05:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS パーマリンク