要約
最近、トランスベースのロボット操作方法は、多数のロボットデモンストレーションを活用することにより、マルチビューの空間表現と言語指示を利用してロボットモーションの軌跡を学習します。
ただし、ロボットデータのコレクションは非常に困難であり、既存の方法には、ほんのわずかなデモンストレーションで新しいタスクで継続的な学習を行う機能がありません。
このホワイトペーパーでは、これらの課題を少数のアクションインクリメンタル学習(FSAIL)タスクとして定式化し、それに応じて、これらの問題に対処するためにタスクプロムプトグラフの進化ポリシー(トピック)を設計します。
具体的には、ロボット模倣学習におけるデータ希少性の問題に対処するために、トピックは少数のショットデモンストレーション内でマルチモーダル情報の深い相互作用を通じてタスク固有のプロンプト(TSP)を学び、それによりタスク固有の識別情報を効果的に抽出します。
一方、新しいタスクで継続的に学習する能力を高め、壊滅的な忘却の問題を軽減するために、トピックは継続的な進化戦略(CES)を採用しています。
CESは、タスク間の本質的な関係を活用してタスク関係グラフを構築します。これにより、以前のタスクから学んだスキルを再利用することにより、新しいタスクの適応が効果的に促進されます。
トピックの先駆者ロボット操作タスクでの少数の継続的な学習、および広範な実験結果は、トピックが成功率が26ドルを超える最先端のベースラインを上回り、既存の変圧器ベースのポリシーの継続的な学習能力を大幅に強化することを示しています。
要約(オリジナル)
Recently, Transformer-based robotic manipulation methods utilize multi-view spatial representations and language instructions to learn robot motion trajectories by leveraging numerous robot demonstrations. However, the collection of robot data is extremely challenging, and existing methods lack the capability for continuous learning on new tasks with only a few demonstrations. In this paper, we formulate these challenges as the Few-Shot Action-Incremental Learning (FSAIL) task, and accordingly design a Task-prOmpt graPh evolutIon poliCy (TOPIC) to address these issues. Specifically, to address the data scarcity issue in robotic imitation learning, TOPIC learns Task-Specific Prompts (TSP) through the deep interaction of multi-modal information within few-shot demonstrations, thereby effectively extracting the task-specific discriminative information. On the other hand, to enhance the capability for continual learning on new tasks and mitigate the issue of catastrophic forgetting, TOPIC adopts a Continuous Evolution Strategy (CES). CES leverages the intrinsic relationships between tasks to construct a task relation graph, which effectively facilitates the adaptation of new tasks by reusing skills learned from previous tasks. TOPIC pioneers few-shot continual learning in the robotic manipulation task, and extensive experimental results demonstrate that TOPIC outperforms state-of-the-art baselines by over 26$\%$ in success rate, significantly enhancing the continual learning capabilities of existing Transformer-based policies.
arxiv情報
著者 | Mingchen Song,Xiang Deng,Guoqiang Zhong,Qi Lv,Jia Wan,Yinchuan Li,Jianye Hao,Weili Guan |
発行日 | 2025-04-22 01:30:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google