Towards Robust Offline Reinforcement Learning under Diverse Data Corruption

要約

オフライン強化学習 (RL) は、コストがかかる、または環境との安全でない相互作用を必要とせずに、オフライン データセットから強化されたポリシーを学習するための有望なアプローチを提供します。
ただし、現実世界の環境で人間が収集したデータセットにはノイズが多く、悪意を持って破損している場合もあるため、オフライン RL のパフォーマンスが大幅に低下する可能性があります。
この研究では、まず、状態、アクション、報酬、ダイナミクスを含む包括的なデータ破損下での現在のオフライン RL アルゴリズムのパフォーマンスを調査します。
私たちの広範な実験により、暗黙的 Q ラーニング (IQL) が、さまざまなオフライン RL アルゴリズムの中でもデータ破損に対する顕著な回復力を示していることが明らかになりました。
さらに、IQL の堅牢なパフォーマンスを理解するために実証分析と理論分析の両方を実施し、その教師ありポリシー学習スキームが重要な要素であることを特定しました。
IQL は比較的堅牢であるにもかかわらず、ダイナミクスの破損下では依然として Q 関数のヘビーテール ターゲットに悩まされます。
この課題に取り組むために、私たちは堅牢な統計からインスピレーションを得て、フーバー損失を使用してヘビーテールを処理し、分位推定器を利用して破損したデータに対するペナルティと学習の安定性のバランスをとります。
これらのシンプルかつ効果的な変更を IQL に組み込むことにより、Robust IQL (RIQL) と呼ばれる、より堅牢なオフライン RL アプローチを提案します。
広範な実験により、RIQL がさまざまなデータ破損シナリオにさらされた場合でも非常に堅牢なパフォーマンスを発揮することが実証されています。

要約(オリジナル)

Offline reinforcement learning (RL) presents a promising approach for learning reinforced policies from offline datasets without the need for costly or unsafe interactions with the environment. However, datasets collected by humans in real-world environments are often noisy and may even be maliciously corrupted, which can significantly degrade the performance of offline RL. In this work, we first investigate the performance of current offline RL algorithms under comprehensive data corruption, including states, actions, rewards, and dynamics. Our extensive experiments reveal that implicit Q-learning (IQL) demonstrates remarkable resilience to data corruption among various offline RL algorithms. Furthermore, we conduct both empirical and theoretical analyses to understand IQL’s robust performance, identifying its supervised policy learning scheme as the key factor. Despite its relative robustness, IQL still suffers from heavy-tail targets of Q functions under dynamics corruption. To tackle this challenge, we draw inspiration from robust statistics to employ the Huber loss to handle the heavy-tailedness and utilize quantile estimators to balance penalization for corrupted data and learning stability. By incorporating these simple yet effective modifications into IQL, we propose a more robust offline RL approach named Robust IQL (RIQL). Extensive experiments demonstrate that RIQL exhibits highly robust performance when subjected to diverse data corruption scenarios.

arxiv情報

著者 Rui Yang,Han Zhong,Jiawei Xu,Amy Zhang,Chongjie Zhang,Lei Han,Tong Zhang
発行日 2024-01-19 17:12:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク