Learning Precise Affordances from Egocentric Videos for Robotic Manipulation

要約

アフォーダンスは、物体が提供する潜在的なアクションとして定義され、ロボット操作タスクにとって非常に重要です。
アフォーダンスを深く理解することで、よりインテリジェントな AI システムが実現できます。
たとえば、そのような知識は、エージェントに、ナイフを切るときはハンドルをつかみ、誰かに渡すときは刃をつかむように指示します。
この論文では、データ収集、効果的なモデルトレーニング、ロボット展開を含む合理化されたアフォーダンス学習システムを紹介します。
まず、自己中心的なビデオからトレーニング データを自動的に収集します。
オブジェクトの把握可能なアフォーダンスのみに焦点を当て、それを粗いヒートマップとして表現する以前の方法とは異なり、把握可能なアフォーダンス (例: オブジェクトのハンドル) と機能的なアフォーダンス (例: ナイフの刃、ハンマーヘッド) の両方をカバーし、正確なセグメンテーション マスクでデータを抽出します。
次に、収集されたデータに基づいてトレーニングするための、Geometry-guided Affordance Transformer (GKT) と呼ばれる効果的なモデルを提案します。
GKT は、革新的な深度特徴インジェクター (DFI) を統合して 3D 形状と幾何学的事前分布を組み込み、モデルのアフォーダンスの理解を強化します。
アフォーダンス指向の操作を可能にするために、GKT と把握生成モデルを組み合わせたフレームワークである Aff-Grasp をさらに導入します。
総合的な評価のために、ピクセル単位のアノテーションを備えたアフォーダンス評価データセットを作成し、ロボット実験のための実世界のタスクを設計します。
その結果、GKTはmIoUで最先端技術を15.9%上回り、Aff-Graspは179回の試行のうち、目に見えるもの、見えないものでの評価を含め、アフォーダンス予測で95.5%、把握成功で77.1%という高い成功率を達成したことが示された。
オブジェクトや乱雑なシーン。

要約(オリジナル)

Affordance, defined as the potential actions that an object offers, is crucial for robotic manipulation tasks. A deep understanding of affordance can lead to more intelligent AI systems. For example, such knowledge directs an agent to grasp a knife by the handle for cutting and by the blade when passing it to someone. In this paper, we present a streamlined affordance learning system that encompasses data collection, effective model training, and robot deployment. First, we collect training data from egocentric videos in an automatic manner. Different from previous methods that focus only on the object graspable affordance and represent it as coarse heatmaps, we cover both graspable (e.g., object handles) and functional affordances (e.g., knife blades, hammer heads) and extract data with precise segmentation masks. We then propose an effective model, termed Geometry-guided Affordance Transformer (GKT), to train on the collected data. GKT integrates an innovative Depth Feature Injector (DFI) to incorporate 3D shape and geometric priors, enhancing the model’s understanding of affordances. To enable affordance-oriented manipulation, we further introduce Aff-Grasp, a framework that combines GKT with a grasp generation model. For comprehensive evaluation, we create an affordance evaluation dataset with pixel-wise annotations, and design real-world tasks for robot experiments. The results show that GKT surpasses the state-of-the-art by 15.9% in mIoU, and Aff-Grasp achieves high success rates of 95.5% in affordance prediction and 77.1% in successful grasping among 179 trials, including evaluations with seen, unseen objects, and cluttered scenes.

arxiv情報

著者 Gen Li,Nikolaos Tsagkas,Jifei Song,Ruaridh Mon-Williams,Sethu Vijayakumar,Kun Shao,Laura Sevilla-Lara
発行日 2024-08-19 16:11:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク