InViG: Benchmarking Interactive Visual Grounding with 500K Human-Robot Interactions

要約

あいまいさは人間のコミュニケーションのいたるところに存在します。
ヒューマン ロボット インタラクション (HRI) におけるこれまでのアプローチは、多くの場合、事前定義されたインタラクション テンプレートに依存しており、現実的で制限のないシナリオではパフォーマンスの低下につながりました。
これらの問題に対処するために、言語の曖昧さの下でインタラクティブな視覚的基礎を築くための大規模なデータセット \invig を紹介します。
私たちのデータセットは、何百万ものオブジェクト インスタンスと対応する質問と回答のペアを含む、無制限の目標指向の曖昧さ回避ダイアログを伴う 520,000 を超える画像で構成されています。
\invig データセットを活用して、広範な調査を実施し、エンドツーエンドのインタラクティブな視覚的曖昧さの解消と根拠付けのための一連のベースライン ソリューションを提案し、検証中に 45.6\% の成功率を達成しました。
私たちの知る限り、 \invig データセットは、オープンエンドのインタラクティブな視覚的根拠を解決するための最初の大規模なデータセットであり、曖昧性を認識した HRI のための実用的だが非常に困難なベンチマークを示しています。
コードとデータセットは \href{https://openivg.github.io}{https://openivg.github.io} から入手できます。

要約(オリジナル)

Ambiguity is ubiquitous in human communication. Previous approaches in Human-Robot Interaction (HRI) have often relied on predefined interaction templates, leading to reduced performance in realistic and open-ended scenarios. To address these issues, we present a large-scale dataset, \invig, for interactive visual grounding under language ambiguity. Our dataset comprises over 520K images accompanied by open-ended goal-oriented disambiguation dialogues, encompassing millions of object instances and corresponding question-answer pairs. Leveraging the \invig dataset, we conduct extensive studies and propose a set of baseline solutions for end-to-end interactive visual disambiguation and grounding, achieving a 45.6\% success rate during validation. To the best of our knowledge, the \invig dataset is the first large-scale dataset for resolving open-ended interactive visual grounding, presenting a practical yet highly challenging benchmark for ambiguity-aware HRI. Codes and datasets are available at: \href{https://openivg.github.io}{https://openivg.github.io}.

arxiv情報

著者 Hanbo Zhang,Jie Xu,Yuchen Mo,Tao Kong
発行日 2023-10-18 17:57:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク