要約
模倣学習 (IL) は、専門家のデモンストレーションを通じてエージェントに特定のタスクを教えることを目的としています。
IL への重要なアプローチの 1 つは、エージェントとエキスパートの間の距離を定義し、その距離を最小限に抑えるエージェント ポリシーを見つけることです。
最適転送方法は、エージェントとエキスパートの軌跡の間の意味のある距離を測定する方法を提供するため、模倣学習で広く使用されています。
しかし、複数の専門家のデモンストレーションをどのように最適に組み合わせるかという問題は、広く研究されていません。
標準的な方法は、状態 (-アクション) の軌跡を単純に連結することですが、軌跡がマルチモーダルである場合に問題が発生します。
我々は、マルチマージナル最適輸送距離を使用し、OT の意味で複数の多様な状態軌道の組み合わせを可能にし、デモンストレーションのより合理的な幾何平均を提供する代替方法を提案します。
私たちのアプローチにより、エージェントは複数の専門家から学ぶことができ、その効率は OpenAI Gym 制御環境で分析され、標準的な方法が常に最適であるとは限らないことが実証されました。
要約(オリジナル)
Imitation learning (IL) seeks to teach agents specific tasks through expert demonstrations. One of the key approaches to IL is to define a distance between agent and expert and to find an agent policy that minimizes that distance. Optimal transport methods have been widely used in imitation learning as they provide ways to measure meaningful distances between agent and expert trajectories. However, the problem of how to optimally combine multiple expert demonstrations has not been widely studied. The standard method is to simply concatenate state (-action) trajectories, which is problematic when trajectories are multi-modal. We propose an alternative method that uses a multi-marginal optimal transport distance and enables the combination of multiple and diverse state-trajectories in the OT sense, providing a more sensible geometric average of the demonstrations. Our approach enables an agent to learn from several experts, and its efficiency is analyzed on OpenAI Gym control environments and demonstrates that the standard method is not always optimal.
arxiv情報
著者 | Ilana Sebag,Samuel Cohen,Marc Peter Deisenroth |
発行日 | 2023-07-20 12:20:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google