Align Your Intents: Offline Imitation Learning via Optimal Transport


オフライン強化学習 (RL) は、環境と対話することなく、事前に収集されたデータを通じて最適なポリシーを学習することで、逐次的な意思決定の問題に対処します。
私たちの手法である AILOT (Aligned Imitation Learning via Optimal Transport) では、データ内のペアごとの空間距離を組み込んだインテントの形式で状態を特別に表現します。
AILOT は、D4RL ベンチマークで最先端のオフライン模倣学習アルゴリズムを上回り、スパース報酬タスクでは他のオフライン RL アルゴリズムのパフォーマンスを向上させることを報告します。


Offline reinforcement learning (RL) addresses the problem of sequential decision-making by learning optimal policy through pre-collected data, without interacting with the environment. As yet, it has remained somewhat impractical, because one rarely knows the reward explicitly and it is hard to distill it retrospectively. Here, we show that an imitating agent can still learn the desired behavior merely from observing the expert, despite the absence of explicit rewards or action labels. In our method, AILOT (Aligned Imitation Learning via Optimal Transport), we involve special representation of states in a form of intents that incorporate pairwise spatial distances within the data. Given such representations, we define intrinsic reward function via optimal transport distance between the expert’s and the agent’s trajectories. We report that AILOT outperforms state-of-the art offline imitation learning algorithms on D4RL benchmarks and improves the performance of other offline RL algorithms in the sparse-reward tasks.


著者 Maksim Bobrin,Nazar Buzun,Dmitrii Krylov,Dmitry V. Dylov
発行日 2024-02-20 14:24:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.LG パーマリンク