要約
コンピュータ ビジョンと自然言語処理による事前トレーニングと微調整の成功したパラダイムを意思決定に組み込むことは、近年ますます一般的になってきています。
この論文では、事前学習済みモデルを使用した観察からの模倣学習を研究し、BCO や AIME などの既存のアプローチが知識障壁、特に実施形態知識障壁 (EKB) とデモンストレーション知識障壁 (DKB) に直面し、パフォーマンスを大きく制限していることを発見しました。
EKB は、事前トレーニングされたモデルに目に見えない観測に関する知識が不足している場合に発生し、アクションの推論にエラーが発生します。
DKB は、限定的な実証に基づいて訓練された政策から生じており、多様なシナリオへの適応を妨げています。
私たちは、これらの障壁の根底にあるメカニズムを徹底的に分析し、解決策として AIME に基づく AIME-v2 を提案します。
AIME-v2 は、データ駆動型の正則化機能とのオンライン インタラクションを使用して EKB を軽減し、ポリシー トレーニングを強化する代理報酬関数を導入することで DKB を軽減します。
DeepMind Control Suite と Meta-World ベンチマークのタスクに関する実験結果は、サンプル効率と収束パフォーマンスの両方を向上させるこれらの変更の有効性を示しています。
この研究は、事前トレーニングベースのアプローチにおける意思決定を強化するための知識の壁を解決するための貴重な洞察に貢献します。
コードは https://github.com/argmax-ai/aime-v2 で入手できます。
要約(オリジナル)
Incorporating the successful paradigm of pretraining and finetuning from Computer Vision and Natural Language Processing into decision-making has become increasingly popular in recent years. In this paper, we study Imitation Learning from Observation with pretrained models and find existing approaches such as BCO and AIME face knowledge barriers, specifically the Embodiment Knowledge Barrier (EKB) and the Demonstration Knowledge Barrier (DKB), greatly limiting their performance. The EKB arises when pretrained models lack knowledge about unseen observations, leading to errors in action inference. The DKB results from policies trained on limited demonstrations, hindering adaptability to diverse scenarios. We thoroughly analyse the underlying mechanism of these barriers and propose AIME-v2 upon AIME as a solution. AIME-v2 uses online interactions with data-driven regulariser to alleviate the EKB and mitigates the DKB by introducing a surrogate reward function to enhance policy training. Experimental results on tasks from the DeepMind Control Suite and Meta-World benchmarks demonstrate the effectiveness of these modifications in improving both sample-efficiency and converged performance. The study contributes valuable insights into resolving knowledge barriers for enhanced decision-making in pretraining-based approaches. Code will be available at https://github.com/argmax-ai/aime-v2.
arxiv情報
著者 | Xingyuan Zhang,Philip Becker-Ehmck,Patrick van der Smagt,Maximilian Karl |
発行日 | 2024-04-29 17:33:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google