Robust Instant Policy: Leveraging Student’s t-Regression Model for Robust In-context Imitation Learning of Robot Manipulation

要約

模倣学習(IL)は、いくつかの人間のデモを観察することにより、ロボットが自律的にタスクを実行できるようにすることを目指しています。
最近、INコンテキストILと呼ばれるILのバリアントは、ネットワークモデルを大規模なデモンストレーションで明示的に更新するのではなく、新しいタスクを実行するためにいくつかの指定されたデモンストレーションからコンテキストを理解するインスタントポリシーとして、既製の大型言語モデル(LLM)を使用しました。
ただし、ロボットドメインでの信頼性は、LLMベースのインスタントポリシーなどの幻覚の問題によって損なわれており、特定のデモンストレーションから逸脱する不十分な軌跡を生成することがあります。
この問題を軽減するために、堅牢なインスタントポリシー(RIP)と呼ばれる新しい堅牢なコンテキスト内模倣学習アルゴリズムを提案します。これは、学生のT回帰モデルを利用して、インスタントポリシーの幻覚軌道に対​​して堅牢であるため、信頼できる旅行を可能にします。
具体的には、RIPはいくつかの候補ロボット軌跡を生成してLLMから特定のタスクを完了し、生徒のT分布を使用してそれらを集約します。これは、外れ値(つまり、幻覚)を無視するのに有益です。
それにより、幻覚に対する堅牢な軌跡が生成されます。
シミュレートされた環境と現実世界の両方の環境で実施された実験は、RIPが最先端のIL方法を大幅に上回ることを示しています。特に日常のタスクの低データシナリオでは、タスクの成功率が少なくとも26ドル$ 26 \%$改善されています。
ビデオの結果https://sites.google.com/view/robustinstantpolicyで入手できます。

要約(オリジナル)

Imitation learning (IL) aims to enable robots to perform tasks autonomously by observing a few human demonstrations. Recently, a variant of IL, called In-Context IL, utilized off-the-shelf large language models (LLMs) as instant policies that understand the context from a few given demonstrations to perform a new task, rather than explicitly updating network models with large-scale demonstrations. However, its reliability in the robotics domain is undermined by hallucination issues such as LLM-based instant policy, which occasionally generates poor trajectories that deviate from the given demonstrations. To alleviate this problem, we propose a new robust in-context imitation learning algorithm called the robust instant policy (RIP), which utilizes a Student’s t-regression model to be robust against the hallucinated trajectories of instant policies to allow reliable trajectory generation. Specifically, RIP generates several candidate robot trajectories to complete a given task from an LLM and aggregates them using the Student’s t-distribution, which is beneficial for ignoring outliers (i.e., hallucinations); thereby, a robust trajectory against hallucinations is generated. Our experiments, conducted in both simulated and real-world environments, show that RIP significantly outperforms state-of-the-art IL methods, with at least $26\%$ improvement in task success rates, particularly in low-data scenarios for everyday tasks. Video results available at https://sites.google.com/view/robustinstantpolicy.

arxiv情報

著者 Hanbit Oh,Andrea M. Salcedo-Vázquez,Ixchel G. Ramirez-Alpizar,Yukiyasu Domae
発行日 2025-06-18 06:02:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク