Semi-Offline Reinforcement Learning for Optimized Text Generation

要約

強化学習 (RL) では、環境と対話するための 2 つの主要な設定、つまりオンラインとオフラインがあります。
オンライン手法では、かなりの時間コストをかけて環境を探索しますが、オフライン手法では、探索能力を犠牲にして報酬シグナルを効率的に取得します。
私たちは、オフライン設定からオンライン設定にスムーズに移行し、探索能力とトレーニングコストのバランスをとり、さまざまな RL 設定を比較するための理論的基盤を提供する新しいパラダイムであるセミオフライン RL を提案します。
半オフライン定式化に基づいて、最適化コスト、漸近誤差、および過学習誤差限界の観点から最適な RL 設定を提示します。
広範な実験により、当社のセミオフラインアプローチは効率的であり、最先端の方法と比較して同等、または多くの場合それより優れたパフォーマンスが得られることが示されています。

要約(オリジナル)

In reinforcement learning (RL), there are two major settings for interacting with the environment: online and offline. Online methods explore the environment at significant time cost, and offline methods efficiently obtain reward signals by sacrificing exploration capability. We propose semi-offline RL, a novel paradigm that smoothly transits from offline to online settings, balances exploration capability and training cost, and provides a theoretical foundation for comparing different RL settings. Based on the semi-offline formulation, we present the RL setting that is optimal in terms of optimization cost, asymptotic error, and overfitting error bound. Extensive experiments show that our semi-offline approach is efficient and yields comparable or often better performance compared with state-of-the-art methods.

arxiv情報

著者 Changyu Chen,Xiting Wang,Yiqiao Jin,Victor Ye Dong,Li Dong,Jie Cao,Yi Liu,Rui Yan
発行日 2023-06-16 09:24:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク