要約
誤解の下で模倣学習の問題を検討します。学習者が根本的にどこでも専門家の行動を再現できない設定です。
これは、観測空間と作用空間の表現力の違い(例えば、ロボットと人間の知覚的または形態学的な違い)のために、実際にはしばしば真実です。
学習者が誤った設定でいくつかの間違いを犯さなければならないことを考えると、どの間違いが特に費用がかかり、複合エラーにつながるかを把握するために環境との相互作用が基本的に必要です。
ただし、相互作用に固有の計算コストと安全性の懸念を考えると、強力なポリシーを学んだことを確認しながら、できるだけ少なく実行したいと考えています。
したがって、以前の研究は、実現可能な設定で強力な保証を備えた計算効率の高いローカル検索手順を実行するだけで、効率的な逆補強学習アルゴリズムのフレーバーを提案しました。
まず、新しい構造的条件の下で、報酬に依存しないポリシーの完全性と呼ばれることを証明します。これらの種類のローカル検索ベースのIRLアルゴリズムは、複合エラーを回避できることを証明します。
次に、学習者が「綱渡りをしている」ことができない可能性があるため、最初にローカル検索を行うべき場所の問題を検討します。
指定された設定では、学習者が実際にプレイできる良いポリシーによって到達可能なものを含めるようにローカル検索が実行される状態のセットを拡大することが有益であることを証明します。
次に、さまざまな誤解のソースと、オフラインデータを使用して、ローカル検索を実行する場所を効果的に拡大する方法を実験的に調査します。
要約(オリジナル)
We consider the problem of imitation learning under misspecification: settings where the learner is fundamentally unable to replicate expert behavior everywhere. This is often true in practice due to differences in observation space and action space expressiveness (e.g. perceptual or morphological differences between robots and humans). Given the learner must make some mistakes in the misspecified setting, interaction with the environment is fundamentally required to figure out which mistakes are particularly costly and lead to compounding errors. However, given the computational cost and safety concerns inherent in interaction, we’d like to perform as little of it as possible while ensuring we’ve learned a strong policy. Accordingly, prior work has proposed a flavor of efficient inverse reinforcement learning algorithms that merely perform a computationally efficient local search procedure with strong guarantees in the realizable setting. We first prove that under a novel structural condition we term reward-agnostic policy completeness, these sorts of local-search based IRL algorithms are able to avoid compounding errors. We then consider the question of where we should perform local search in the first place, given the learner may not be able to ‘walk on a tightrope’ as well as the expert in the misspecified setting. We prove that in the misspecified setting, it is beneficial to broaden the set of states on which local search is performed to include those reachable by good policies the learner can actually play. We then experimentally explore a variety of sources of misspecification and how offline data can be used to effectively broaden where we perform local search from.
arxiv情報
著者 | Nicolas Espinosa-Dice,Sanjiban Choudhury,Wen Sun,Gokul Swamy |
発行日 | 2025-04-02 16:32:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google