Align Your Intents: Offline Imitation Learning via Optimal Transport

要約

オフライン強化学習 (RL) は、環境と対話することなく、事前に収集されたデータを通じて最適なポリシーを学習することで、逐次的な意思決定の問題に対処します。
現時点では、報酬を明確に知ることはほとんどなく、遡及的に抽出するのが難しいため、これはまだ実用的ではありません。
ここでは、明示的な報酬や行動ラベルがないにもかかわらず、模倣エージェントは専門家を観察するだけで望ましい行動を学習できることを示します。
私たちの手法である AILOT (Aligned Imitation Learning via Optimal Transport) では、データ内のペアごとの空間距離を組み込んだインテントの形式で状態を特別に表現します。
このような表現を考慮して、エキスパートの軌道とエージェントの軌道の間の最適な輸送距離を介して固有の報酬関数を定義します。
AILOT は、D4RL ベンチマークで最先端のオフライン模倣学習アルゴリズムを上回り、スパース報酬タスクでは他のオフライン RL アルゴリズムのパフォーマンスを向上させることを報告します。

要約(オリジナル)

Offline reinforcement learning (RL) addresses the problem of sequential decision-making by learning optimal policy through pre-collected data, without interacting with the environment. As yet, it has remained somewhat impractical, because one rarely knows the reward explicitly and it is hard to distill it retrospectively. Here, we show that an imitating agent can still learn the desired behavior merely from observing the expert, despite the absence of explicit rewards or action labels. In our method, AILOT (Aligned Imitation Learning via Optimal Transport), we involve special representation of states in a form of intents that incorporate pairwise spatial distances within the data. Given such representations, we define intrinsic reward function via optimal transport distance between the expert’s and the agent’s trajectories. We report that AILOT outperforms state-of-the art offline imitation learning algorithms on D4RL benchmarks and improves the performance of other offline RL algorithms in the sparse-reward tasks.

arxiv情報

著者 Maksim Bobrin,Nazar Buzun,Dmitrii Krylov,Dmitry V. Dylov
発行日 2024-02-20 14:24:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク