DiaLoc: An Iterative Approach to Embodied Dialog Localization

要約

マルチモーダル学習により、多くの視覚言語タスクのパフォーマンスが向上しました。
しかし、身体化された対話の研究における既存の研究のほとんどはナビゲーションに焦点を当てており、ローカリゼーションのタスクは十分に研究されていません。
いくつかの既存のダイアログ ベースのローカリゼーション アプローチでは、ローカリゼーションの前にダイアログ全体が利用可能であることを前提としていますが、これは展開されたダイアログ ベースのローカリゼーションでは非現実的です。
この論文では、実際の人間のオペレータの行動に合わせた新しいダイアログベースのローカリゼーション フレームワークである DiaLoc を提案します。
具体的には、ダイアログが切り替わるたびに現在のポーズの信念を視覚化できる位置予測の反復改良を行います。
DiaLoc は、マルチモーダル データをマルチショット ローカリゼーションに効果的に利用し、フュージョン エンコーダーがビジョンとダイアログ情報を繰り返し融合します。
シングルショット (Acc5@valUnseen で +7.08%) およびマルチショット設定 (Acc5@valUnseen で +10.85%) の具体化されたダイアログベースのローカリゼーション タスクで最先端の結果を達成しました。
DiaLoc は、シミュレーションと現実世界のアプリケーションの間のギャップを狭め、協調的な位置特定とナビゲーションに関する将来の研究への扉を開きます。

要約(オリジナル)

Multimodal learning has advanced the performance for many vision-language tasks. However, most existing works in embodied dialog research focus on navigation and leave the localization task understudied. The few existing dialog-based localization approaches assume the availability of entire dialog prior to localizaiton, which is impractical for deployed dialog-based localization. In this paper, we propose DiaLoc, a new dialog-based localization framework which aligns with a real human operator behavior. Specifically, we produce an iterative refinement of location predictions which can visualize current pose believes after each dialog turn. DiaLoc effectively utilizes the multimodal data for multi-shot localization, where a fusion encoder fuses vision and dialog information iteratively. We achieve state-of-the-art results on embodied dialog-based localization task, in single-shot (+7.08% in Acc5@valUnseen) and multi- shot settings (+10.85% in Acc5@valUnseen). DiaLoc narrows the gap between simulation and real-world applications, opening doors for future research on collaborative localization and navigation.

arxiv情報

著者 Chao Zhang,Mohan Li,Ignas Budvytis,Stephan Liwicki
発行日 2024-03-11 16:03:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク