Offline Imitation from Observation via Primal Wasserstein State Occupancy Matching

要約

現実世界のシナリオでは、環境との恣意的な対話にはコストがかかることが多く、専門家のデモンストレーションが常に利用できるとは限りません。
両方の必要性を減らすために、観察からのオフライン学習 (LfO) が広く研究されています。LfO では、エージェントはエキスパートの状態と \textit{タスクに依存しない} 非エキスパートの状態とアクションのペアのみを使用してタスクを解決する方法を学習します。
最先端の分布補正推定 (DICE) 手法は、学習者ポリシーと専門家ポリシーの間の状態占有の相違を最小限に抑えます。
ただし、それらは $f$ ダイバージェンス (KL および $\chi^2$) またはルービンシュタイン双対性によるワッサーシュタイン距離のいずれかに限定され、後者はワッサーシュタインベースの解のパフォーマンスに重要な基礎となる距離計量を制約します。
この問題に対処するために、我々は、Primal Wasserstein DICE (PW-DICE) を提案します。これは、悲観的な正則化機能を使用して、専門家と学習者の状態占有の間の原始ワッサーシュタイン距離を最小化し、対照的に学習された距離をワッサーシュタイン距離の基礎となるメトリックとして活用します。
理論的には、私たちのフレームワークが最先端の SMODICE を一般化したものであり、$f$-divergence と Wasserstein 最小化を統合していることを証明します。
経験的に、PW-DICE は複数のテストベッドでいくつかの最先端の方法を改良していることがわかりました。

要約(オリジナル)

In real-world scenarios, arbitrary interactions with the environment can often be costly, and actions of expert demonstrations are not always available. To reduce the need for both, Offline Learning from Observations (LfO) is extensively studied, where the agent learns to solve a task with only expert states and \textit{task-agnostic} non-expert state-action pairs. The state-of-the-art DIstribution Correction Estimation (DICE) methods minimize the state occupancy divergence between the learner and expert policies. However, they are limited to either $f$-divergences (KL and $\chi^2$) or Wasserstein distance with Rubinstein duality, the latter of which constrains the underlying distance metric crucial to the performance of Wasserstein-based solutions. To address this problem, we propose Primal Wasserstein DICE (PW-DICE), which minimizes the primal Wasserstein distance between the expert and learner state occupancies with a pessimistic regularizer and leverages a contrastively learned distance as the underlying metric for the Wasserstein distance. Theoretically, we prove that our framework is a generalization of the state-of-the-art, SMODICE, and unifies $f$-divergence and Wasserstein minimization. Empirically, we find that PW-DICE improves upon several state-of-the-art methods on multiple testbeds.

arxiv情報

著者 Kai Yan,Alexander G. Schwing,Yu-xiong Wang
発行日 2023-11-02 15:41:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク