Towards Unified Interactive Visual Grounding in The Wild

要約

ヒューマン ロボット インタラクション (HRI) におけるインタラクティブな視覚的基盤は、自然言語には避けられない曖昧さがあるため、困難ではありますが実用的です。
ロボットには、積極的な情報収集によってユーザー入力の曖昧さをなくす必要があります。
以前のアプローチでは、明確な質問をするために事前定義されたテンプレートに依存することが多く、その結果、現実的な対話型シナリオのパフォーマンスが低下します。
この論文では、人間とロボットのインタラクションにおけるインタラクティブなビジュアルグラウンディングのためのエンドツーエンドシステムである TiO を提案します。
視覚的な対話と基礎の統一された定式化の恩恵を受けて、私たちのメソッドは広範な公開データの結合でトレーニングでき、多様で挑戦的なオープンワールドのシナリオに対して優れた汎用性を示します。
実験では、GuessWhat?! で TiO を検証します。
InViG ベンチマークでは、明らかに新しい最先端のパフォーマンスを設定しています。
さらに、厳選した 150 の挑戦的なシーンと実際のロボット プラットフォームで HRI 実験を実施します。
結果は、私たちの方法が、高い成功率で、多様な視覚および言語入力に対して優れた汎用性を実証していることを示しています。
コードとデモは https://github.com/jxu124/TiO で入手できます。

要約(オリジナル)

Interactive visual grounding in Human-Robot Interaction (HRI) is challenging yet practical due to the inevitable ambiguity in natural languages. It requires robots to disambiguate the user input by active information gathering. Previous approaches often rely on predefined templates to ask disambiguation questions, resulting in performance reduction in realistic interactive scenarios. In this paper, we propose TiO, an end-to-end system for interactive visual grounding in human-robot interaction. Benefiting from a unified formulation of visual dialogue and grounding, our method can be trained on a joint of extensive public data, and show superior generality to diversified and challenging open-world scenarios. In the experiments, we validate TiO on GuessWhat?! and InViG benchmarks, setting new state-of-the-art performance by a clear margin. Moreover, we conduct HRI experiments on the carefully selected 150 challenging scenes as well as real-robot platforms. Results show that our method demonstrates superior generality to diversified visual and language inputs with a high success rate. Codes and demos are available at https://github.com/jxu124/TiO.

arxiv情報

著者 Jie Xu,Hanbo Zhang,Qingyi Si,Yifeng Li,Xuguang Lan,Tao Kong
発行日 2024-01-30 02:58:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク