Self-Explainable Affordance Learning with Embodied Caption

要約

視覚アフォーダンス学習の分野では、これまでの手法は主に人間の行動パターンを描写する豊富な画像やビデオを使用して、オブジェクト操作のための動作可能領域を特定し、ロボットタスクでさまざまな用途に使用されていました。
ただし、ドラムを叩くべきか運ぶべきかなどの曖昧さ、複雑なシーンの処理に伴う複雑さなど、アクションの曖昧さという主な課題に直面しています。
さらに、ロボットのエラーを時間内に修正するには人間の介入が重要です。
これらの問題に対処するために、具体的なキャプションを備えた自己説明可能なアフォーダンス学習 (SEA) を導入します。
この革新により、ロボットは自分の意図を明確にし、説明可能な視覚言語キャプションと視覚的アフォーダンス学習の間のギャップを埋めることができます。
適切なデータセットが不足しているため、画像、ヒートマップ、具体化されたキャプションを統合した、このタスクに合わせた先駆的なデータセットとメトリクスを発表します。
さらに、アフォーダンスのグラウンディングと自己説明をシンプルかつ効率的な方法で効果的に組み合わせる新しいモデルを提案します。
広範な定量的および定性的実験により、私たちの方法の有効性が実証されています。

要約(オリジナル)

In the field of visual affordance learning, previous methods mainly used abundant images or videos that delineate human behavior patterns to identify action possibility regions for object manipulation, with a variety of applications in robotic tasks. However, they encounter a main challenge of action ambiguity, illustrated by the vagueness like whether to beat or carry a drum, and the complexities involved in processing intricate scenes. Moreover, it is important for human intervention to rectify robot errors in time. To address these issues, we introduce Self-Explainable Affordance learning (SEA) with embodied caption. This innovation enables robots to articulate their intentions and bridge the gap between explainable vision-language caption and visual affordance learning. Due to a lack of appropriate dataset, we unveil a pioneering dataset and metrics tailored for this task, which integrates images, heatmaps, and embodied captions. Furthermore, we propose a novel model to effectively combine affordance grounding with self-explanation in a simple but efficient manner. Extensive quantitative and qualitative experiments demonstrate our method’s effectiveness.

arxiv情報

著者 Zhipeng Zhang,Zhimin Wei,Guolei Sun,Peng Wang,Luc Van Gool
発行日 2024-04-08 15:22:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク