要約
デモからの学習は、学習データを超えて汎化することに課題があり、わずかな視覚的変化に対しても脆弱である。この問題に取り組むために、我々は、タスクに関連するオブジェクトの3次元表現を条件入力とし、推論時の安全制約のためのコスト関数によって導くことができる、言語ガイド付きオブジェクト中心拡散政策であるLan-o3dpを導入する。Lan-o3dpは、背景の変化や視覚的な曖昧さなど、様々な側面において強力な汎化を可能にし、デモの過程で未見の新しい障害物を回避することができる。具体的には、まず、ターゲットオブジェクトの点群を条件とする拡散ポリシーを学習し、次に、大規模言語モデルを利用して、ユーザ指示をターゲットオブジェクトと障害物からなるタスク関連ユニットに分解する。提案手法は、シミュレーション実験において、ベースラインと比較して学習効率と高い成功率を示す。実世界の実験では、本手法は、未知のインスタンス、乱雑なシーン、複数の類似オブジェクトが存在するシーンに対して強い汎化性能を示し、障害物回避の訓練不要性を示す。
要約(オリジナル)
Learning from demonstrations faces challenges in generalizing beyond the training data and is fragile even to slight visual variations. To tackle this problem, we introduce Lan-o3dp, a language guided object centric diffusion policy that takes 3d representation of task relevant objects as conditional input and can be guided by cost function for safety constraints at inference time. Lan-o3dp enables strong generalization in various aspects, such as background changes, visual ambiguity and can avoid novel obstacles that are unseen during the demonstration process. Specifically, We first train a diffusion policy conditioned on point clouds of target objects and then harness a large language model to decompose the user instruction into task related units consisting of target objects and obstacles, which can be used as visual observation for the policy network or converted to a cost function, guiding the generation of trajectory towards collision free region at test time. Our proposed method shows training efficiency and higher success rates compared with the baselines in simulation experiments. In real world experiments, our method exhibits strong generalization performance towards unseen instances, cluttered scenes, scenes of multiple similar objects and demonstrates training free capability of obstacle avoidance.
arxiv情報
著者 | Hang Li,Qian Feng,Zhi Zheng,Jianxiang Feng,Alois Knoll |
発行日 | 2024-07-04 21:45:02+00:00 |
arxivサイト | arxiv_id(pdf) |