Visual Affordance Prediction for Guiding Robot Exploration

要約

可能性のあるインタラクションの空間について人間が持つ直感的な理解と、その理解をこれまで見たことのないシーンに一般化できる容易さに動機づけられ、ロボット探索を誘導するための視覚アフォーダンスを学習するアプローチを開発します。
シーンの入力画像が与えられると、それとの相互作用を通じて達成できる、ありそうな将来の状態にわたる分布を推測します。
我々は、Transformer ベースのモデルを使用して、VQ-VAE の潜在埋め込み空間における条件付き分布を学習し、これらのモデルが大規模で多様な受動的データを使用して訓練できること、および学習されたモデルが多様なオブジェクトに対して構成的な一般化を示すことを示します。
トレーニングの分布を超えています。
ロボット操作における視覚的な目標条件付きポリシー学習中に、目標サンプリング分布として機能することで、トレーニング済みのアフォーダンス モデルを探索のガイドにどのように使用できるかを示します。

要約(オリジナル)

Motivated by the intuitive understanding humans have about the space of possible interactions, and the ease with which they can generalize this understanding to previously unseen scenes, we develop an approach for learning visual affordances for guiding robot exploration. Given an input image of a scene, we infer a distribution over plausible future states that can be achieved via interactions with it. We use a Transformer-based model to learn a conditional distribution in the latent embedding space of a VQ-VAE and show that these models can be trained using large-scale and diverse passive data, and that the learned models exhibit compositional generalization to diverse objects beyond the training distribution. We show how the trained affordance model can be used for guiding exploration by acting as a goal-sampling distribution, during visual goal-conditioned policy learning in robotic manipulation.

arxiv情報

著者 Homanga Bharadhwaj,Abhinav Gupta,Shubham Tulsiani
発行日 2023-05-28 17:53:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク