要約
多様なタスクや環境にわたる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学における重要な課題です。
キーポイントベースの表現は、オブジェクトの本質的な特徴を捉え、動作予測における参照フレームを確立するための簡潔な表現として効果的であることが証明されており、データ効率の高いロボットスキルの学習が可能になります。
ただし、手動による設計の性質と追加の人間によるラベルへの依存により、拡張性が制限されます。
この論文では、事前にトレーニングされた大規模なビジョン言語モデル (LM) を活用して、タスクに関連し、インスタンス間で一貫したキーポイントを自動的に生成するフレームワークである KALM を提案します。
KALM は、LM を使用して提案を生成することで、ビューとオブジェクト全体にわたって堅牢で一貫したキーポイントを抽出し、それらを少数のロボット デモンストレーション データに対して検証します。
生成されたキーポイントに基づいて、キーポイント中心のフレームでのアクションを予測するキーポイント条件付きポリシー モデルをトレーニングできるため、ロボットがさまざまなオブジェクトのポーズ、カメラ ビュー、同様の機能形状を持つオブジェクト インスタンスにわたって効果的に一般化できるようになります。
私たちのメソッドは、追加のラベルを必要とせずに、ほんの一握りのデモンストレーションからさまざまなタスクや環境に適応し、現実世界で強力なパフォーマンスを示しています。
ウェブサイト: https://kalm-il.github.io/
要約(オリジナル)
Generalization to novel object configurations and instances across diverse tasks and environments is a critical challenge in robotics. Keypoint-based representations have been proven effective as a succinct representation for capturing essential object features, and for establishing a reference frame in action prediction, enabling data-efficient learning of robot skills. However, their manual design nature and reliance on additional human labels limit their scalability. In this paper, we propose KALM, a framework that leverages large pre-trained vision-language models (LMs) to automatically generate task-relevant and cross-instance consistent keypoints. KALM distills robust and consistent keypoints across views and objects by generating proposals using LMs and verifies them against a small set of robot demonstration data. Based on the generated keypoints, we can train keypoint-conditioned policy models that predict actions in keypoint-centric frames, enabling robots to generalize effectively across varying object poses, camera views, and object instances with similar functional shapes. Our method demonstrates strong performance in the real world, adapting to different tasks and environments from only a handful of demonstrations while requiring no additional labels. Website: https://kalm-il.github.io/
arxiv情報
著者 | Xiaolin Fang,Bo-Ruei Huang,Jiayuan Mao,Jasmine Shone,Joshua B. Tenenbaum,Tomás Lozano-Pérez,Leslie Pack Kaelbling |
発行日 | 2024-10-30 17:37:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google