Imitation Learning from Observation with Automatic Discount Scheduling

要約

人間は観察と模倣を通じて新しいスキルを獲得することがよくあります。
ロボットエージェントの場合、インターネット上で入手可能な大量のラベルなしのビデオデモンストレーションデータから学習するには、その動作にアクセスせずに専門家の真似をする必要があり、観察からの模倣学習(ILfO)として知られる課題が生じます。
ILfO 問題に取り組む一般的なアプローチは、エージェントと専門家の観察から計算された代理報酬を利用して、ILfO 問題を逆強化学習問題に変換することです。
それにもかかわらず、進行状況の依存関係プロパティによって特徴付けられるタスクは、そのようなアプローチにとって重大な課題を引き起こすことがわかりました。
これらのタスクでは、エージェントは後続の動作を習得する前に、最初にエキスパートの以前の動作を学習する必要があります。
私たちの調査により、主な原因は、後のステップに割り当てられた報酬信号が最初の行動の学習を妨げていることであることが明らかになりました。
この課題に対処するために、エージェントが後の行動に進む前に以前の行動を習得できるようにする新しい ILfO フレームワークを紹介します。
トレーニング段階で強化学習の割引係数を適応的に変更する自動割引スケジューリング (ADS) メカニズムを導入します。最初は早い報酬を優先し、初期の行動が習得された場合にのみ、後の報酬を徐々に適用します。
9 つのメタワールド タスクに対して行われた私たちの実験は、私たちの方法が、解決不可能なタスクを含むすべてのタスクにおいて最先端の方法よりも大幅に優れていることを実証しました。

要約(オリジナル)

Humans often acquire new skills through observation and imitation. For robotic agents, learning from the plethora of unlabeled video demonstration data available on the Internet necessitates imitating the expert without access to its action, presenting a challenge known as Imitation Learning from Observations (ILfO). A common approach to tackle ILfO problems is to convert them into inverse reinforcement learning problems, utilizing a proxy reward computed from the agent’s and the expert’s observations. Nonetheless, we identify that tasks characterized by a progress dependency property pose significant challenges for such approaches; in these tasks, the agent needs to initially learn the expert’s preceding behaviors before mastering the subsequent ones. Our investigation reveals that the main cause is that the reward signals assigned to later steps hinder the learning of initial behaviors. To address this challenge, we present a novel ILfO framework that enables the agent to master earlier behaviors before advancing to later ones. We introduce an Automatic Discount Scheduling (ADS) mechanism that adaptively alters the discount factor in reinforcement learning during the training phase, prioritizing earlier rewards initially and gradually engaging later rewards only when the earlier behaviors have been mastered. Our experiments, conducted on nine Meta-World tasks, demonstrate that our method significantly outperforms state-of-the-art methods across all tasks, including those that are unsolvable by them.

arxiv情報

著者 Yuyang Liu,Weijun Dong,Yingdong Hu,Chuan Wen,Zhao-Heng Yin,Chongjie Zhang,Yang Gao
発行日 2023-10-12 03:04:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク