I Speak and You Find: Robust 3D Visual Grounding with Noisy and Ambiguous Speech Inputs

要約

既存の3Dビジュアル接地方法は、3Dシーン内でオブジェクトを見つけるために、正確なテキストプロンプトに依存しています。
自然で直感的なモダリティとしてのスピーチは、有望な代替手段を提供します。
ただし、実際の音声入力は、アクセント、バックグラウンドノイズ、音声レートの変化により、転写エラーに苦しむことが多く、既存の3DVGメソッドの適用性が制限されます。
これらの課題に対処するために、\ textBf {speechRefer}を提案します。これは、ノイズの多い曖昧な音声からテキストへの転写が存在するためにパフォーマンスを強化するために設計された新しい3DVGフレームワークです。
SpeechReferは、Xisting 3DVGモデルとシームレスに統合し、2つの重要なイノベーションを導入します。
第一に、音声補完的なモジュールは、音声的に関連する単語の間の音響の類似性をキャプチャし、微妙な区別を強調し、音声信号から補完的な提案スコアを生成します。
これにより、潜在的に誤った転写への依存が減少します。
第二に、対照的な補完的なモジュールは、誤ったテキスト機能を対応する音声機能と整列させるための対照的な学習を採用し、転写エラーが支配された場合でも堅牢なパフォーマンスを確保します。
SpeechReferおよびPeechnr3Dデータセットの広範な実験は、SpeechReferが既存の3DVGメソッドのパフォーマンスを大きなマージンで改善することを示しています。これにより、音声リーファーの騒々しい音声入力と信頼性の高い3DVGの間のギャップを埋める可能性を強調し、より直感的で実用的なマルチモーダルシステムを可能にします。

要約(オリジナル)

Existing 3D visual grounding methods rely on precise text prompts to locate objects within 3D scenes. Speech, as a natural and intuitive modality, offers a promising alternative. Real-world speech inputs, however, often suffer from transcription errors due to accents, background noise, and varying speech rates, limiting the applicability of existing 3DVG methods. To address these challenges, we propose \textbf{SpeechRefer}, a novel 3DVG framework designed to enhance performance in the presence of noisy and ambiguous speech-to-text transcriptions. SpeechRefer integrates seamlessly with xisting 3DVG models and introduces two key innovations. First, the Speech Complementary Module captures acoustic similarities between phonetically related words and highlights subtle distinctions, generating complementary proposal scores from the speech signal. This reduces dependence on potentially erroneous transcriptions. Second, the Contrastive Complementary Module employs contrastive learning to align erroneous text features with corresponding speech features, ensuring robust performance even when transcription errors dominate. Extensive experiments on the SpeechRefer and peechNr3D datasets demonstrate that SpeechRefer improves the performance of existing 3DVG methods by a large margin, which highlights SpeechRefer’s potential to bridge the gap between noisy speech inputs and reliable 3DVG, enabling more intuitive and practical multimodal systems.

arxiv情報

著者 Yu Qi,Lipeng Gu,Honghua Chen,Liangliang Nan,Mingqiang Wei
発行日 2025-06-17 13:17:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク