Residual Learning and Context Encoding for Adaptive Offline-to-Online Reinforcement Learning

要約

オフライン強化学習 (RL) を使用すると、固定データセットから逐次的な動作を学習できます。
オフライン データセットは考えられるすべての状況をカバーしているわけではないため、多くの方法ではオンライン微調整中に追加データを収集してパフォーマンスを向上させます。
一般に、これらの方法では、トレーニングのオフライン段階とオンライン段階の両方で移行ダイナミクスが同じままであることを前提としています。
ただし、屋外の建設や起伏の多い地形でのナビゲーションなど、多くの実世界のアプリケーションでは、オフライン フェーズとオンライン フェーズの間で遷移ダイナミクスが異なるのが一般的です。
さらに、オンライン微調整中にダイナミクスが変化する可能性があります。
オフライン RL からオンライン RL へのダイナミクスの変化というこの問題に対処するために、ダイナミクスの変化を推測してオフライン ソリューションの出力を修正する残差学習アプローチを提案します。
オンライン微調整フェーズでは、動的な遷移を予測しながら、現在のオンライン学習環境内で一貫した表現を学習するようにコンテキスト エンコーダーをトレーニングします。
環境リセット時のダイナミクスの変化をサポートするように修正された D4RL MuJoCo 環境での実験は、比較手法では不可能であるが、私たちのアプローチがこれらの動的変化に適応し、サンプル効率的な方法で目に見えない摂動を一般化できることを示しています。

要約(オリジナル)

Offline reinforcement learning (RL) allows learning sequential behavior from fixed datasets. Since offline datasets do not cover all possible situations, many methods collect additional data during online fine-tuning to improve performance. In general, these methods assume that the transition dynamics remain the same during both the offline and online phases of training. However, in many real-world applications, such as outdoor construction and navigation over rough terrain, it is common for the transition dynamics to vary between the offline and online phases. Moreover, the dynamics may vary during the online fine-tuning. To address this problem of changing dynamics from offline to online RL we propose a residual learning approach that infers dynamics changes to correct the outputs of the offline solution. At the online fine-tuning phase, we train a context encoder to learn a representation that is consistent inside the current online learning environment while being able to predict dynamic transitions. Experiments in D4RL MuJoCo environments, modified to support dynamics’ changes upon environment resets, show that our approach can adapt to these dynamic changes and generalize to unseen perturbations in a sample-efficient way, whilst comparison methods cannot.

arxiv情報

著者 Mohammadreza Nakhaei,Aidan Scannell,Joni Pajarinen
発行日 2024-06-12 14:04:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク