BAKU: An Efficient Transformer for Multi-Task Policy Learning

要約

多様なタスクを解決できるジェネラリスト エージェントのトレーニングは困難であり、多くの場合、専門家のデモンストレーションの大規模なデータセットが必要になります。
これは、各データ ポイントが現実世界でアクションを物理的に実行する必要があるロボット工学では特に問題になります。
したがって、利用可能なトレーニング データを効果的に活用できるアーキテクチャが緊急に必要とされています。
この研究では、マルチタスク ロボット ポリシーの効率的な学習を可能にするシンプルなトランスフォーマー アーキテクチャである BAKU を紹介します。
BAKU は、オフライン模倣学習の最近の進歩に基づいて構築されており、観察トランク、アクション チャンキング、多感覚観察、およびアクション ヘッドを細心の注意を払って組み合わせて、以前の研究を大幅に改善しています。
LIBERO、Meta-World スイート、Deepmind Control スイートにわたる 129 のシミュレートされたタスクに関する実験では、RT-1 および MT-ACT と比較して全体で 18% の絶対的な改善が見られ、より難しい LIBERO ベンチマークでは 36% の改善が見られました。
30 の実世界の操作タスクでは、タスクあたり平均わずか 17 回のデモン​​ストレーションで、BAKU は 91% の成功率を達成しました。
ロボットのビデオは https://baku-robot.github.io/ でご覧いただくのが最適です。

要約(オリジナル)

Training generalist agents capable of solving diverse tasks is challenging, often requiring large datasets of expert demonstrations. This is particularly problematic in robotics, where each data point requires physical execution of actions in the real world. Thus, there is a pressing need for architectures that can effectively leverage the available training data. In this work, we present BAKU, a simple transformer architecture that enables efficient learning of multi-task robot policies. BAKU builds upon recent advancements in offline imitation learning and meticulously combines observation trunks, action chunking, multi-sensory observations, and action heads to substantially improve upon prior work. Our experiments on 129 simulated tasks across LIBERO, Meta-World suite, and the Deepmind Control suite exhibit an overall 18% absolute improvement over RT-1 and MT-ACT, with a 36% improvement on the harder LIBERO benchmark. On 30 real-world manipulation tasks, given an average of just 17 demonstrations per task, BAKU achieves a 91% success rate. Videos of the robot are best viewed at https://baku-robot.github.io/.

arxiv情報

著者 Siddhant Haldar,Zhuoran Peng,Lerrel Pinto
発行日 2024-07-16 20:20:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク