要約
模倣学習は、専門家のデモンストレーションへのアクセスを活用することで、代替アプローチと比較してポリシーの合成を大幅に簡素化します。
このような模倣ポリシーでは、トレーニング サンプルからのエラーが特に重要です。
ポリシーアクションの出力における稀な間違いであっても、時間の経過とともに急速に悪化する可能性があります。これは、ポリシーが間違いを犯す可能性がさらに高まる未知の将来の状態につながり、最終的にはタスクの失敗を引き起こすためです。
事前に記録されたデモンストレーションのみからポリシーを便利にトレーニングするために、単純な教師付き「動作クローン作成」を再検討しますが、複合エラー現象に対抗するためにモデル クラスを慎重に設計します。
私たちの「メモリ一貫性ニューラル ネットワーク」(MCNN) 出力は、プロトタイプの「メモリ」トレーニング サンプルに固定された、明確に指定された許容領域内に収まるように厳しく制約されています。
MCNN ポリシーによって引き起こされる次善のギャップに対して保証された上限を提供します。
MLP、Transformer、Diffusion バックボーンを備えた 9 つの模倣学習タスクで MCNN を使用し、器用なロボット操作と運転、固有受容入力と視覚入力、およびさまざまなサイズと種類のデモンストレーション データに及ぶと、パフォーマンスが大幅に一貫して向上することがわかり、それが検証されました。
MCNN は、模倣学習アプリケーションには、標準的なディープ ニューラル ネットワークよりも適しています。
ウェブサイト: https://sites.google.com/view/mcnn-imitation
要約(オリジナル)
Imitation learning considerably simplifies policy synthesis compared to alternative approaches by exploiting access to expert demonstrations. For such imitation policies, errors away from the training samples are particularly critical. Even rare slip-ups in the policy action outputs can compound quickly over time, since they lead to unfamiliar future states where the policy is still more likely to err, eventually causing task failures. We revisit simple supervised “behavior cloning” for conveniently training the policy from nothing more than pre-recorded demonstrations, but carefully design the model class to counter the compounding error phenomenon. Our “memory-consistent neural network” (MCNN) outputs are hard-constrained to stay within clearly specified permissible regions anchored to prototypical “memory” training samples. We provide a guaranteed upper bound for the sub-optimality gap induced by MCNN policies. Using MCNNs on 9 imitation learning tasks, with MLP, Transformer, and Diffusion backbones, spanning dexterous robotic manipulation and driving, proprioceptive inputs and visual inputs, and varying sizes and types of demonstration data, we find large and consistent gains in performance, validating that MCNNs are better-suited than vanilla deep neural networks for imitation learning applications. Website: https://sites.google.com/view/mcnn-imitation
arxiv情報
著者 | Kaustubh Sridhar,Souradeep Dutta,Dinesh Jayaraman,James Weimer,Insup Lee |
発行日 | 2023-10-09 21:49:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google