Learning from Suboptimal Data in Continuous Control via Auto-Regressive Soft Q-Network

要約

継続的な制御のための強化学習(RL)には、多くの場合、大量のオンラインインタラクションデータが必要です。
価値ベースのRLメソッドは、比較的高いサンプル効率を提供することにより、この負担を軽減できます。
一部の研究では、オフラインのデモデータを「キックスタート」トレーニングに組み込み、継続的な制御で有望な結果を達成することにより、サンプル効率をさらに向上させます。
ただし、通常、アクションディメンションごとにQ機能を個別に計算し、相互依存関係を無視し、トレーニングプロセス中の非専門家のデモやオンラインで収集されたデータなど、最適でないデータから学習するときに最適なアクションを特定するのが難しくなります。
これらの問題に対処するために、Q値を粗から財政、自動回帰的な方法でモデル化する価値ベースのRLアルゴリズムである自動回帰ソフトQラーニング(ARSQ)を提案します。
まず、ARSQは連続アクション空間を粗から微細な階層内の離散空間に分解し、細粒の連続制御タスクのサンプル効率を高めます。
次に、各決定ステップ内の次元のアクションの利点を自動的に予測し、継続的な制御タスクでより効果的な意思決定を可能にします。
ARSQを2つの連続制御ベンチマーク、RLBenchとD4RLで評価し、デモデータをオンライントレーニングに統合します。
Expert以外のデモンストレーションを含むD4RLでは、ARSQはSOTA価値ベースのベースラインよりも平均$ 1.62 \ Times $のパフォーマンス改善を達成しています。
専門家のデモンストレーションを組み込んだRLBenchでは、ARSQはさまざまなベースラインを超えており、最適ではないオンラインで収集されたデータからの学習における有効性を示しています。
プロジェクトページはhttps://sites.google.com/view/ar-soft-qにあります

要約(オリジナル)

Reinforcement learning (RL) for continuous control often requires large amounts of online interaction data. Value-based RL methods can mitigate this burden by offering relatively high sample efficiency. Some studies further enhance sample efficiency by incorporating offline demonstration data to ‘kick-start’ training, achieving promising results in continuous control. However, they typically compute the Q-function independently for each action dimension, neglecting interdependencies and making it harder to identify optimal actions when learning from suboptimal data, such as non-expert demonstration and online-collected data during the training process. To address these issues, we propose Auto-Regressive Soft Q-learning (ARSQ), a value-based RL algorithm that models Q-values in a coarse-to-fine, auto-regressive manner. First, ARSQ decomposes the continuous action space into discrete spaces in a coarse-to-fine hierarchy, enhancing sample efficiency for fine-grained continuous control tasks. Next, it auto-regressively predicts dimensional action advantages within each decision step, enabling more effective decision-making in continuous control tasks. We evaluate ARSQ on two continuous control benchmarks, RLBench and D4RL, integrating demonstration data into online training. On D4RL, which includes non-expert demonstrations, ARSQ achieves an average $1.62\times$ performance improvement over SOTA value-based baseline. On RLBench, which incorporates expert demonstrations, ARSQ surpasses various baselines, demonstrating its effectiveness in learning from suboptimal online-collected data. Project page is at https://sites.google.com/view/ar-soft-q

arxiv情報

著者 Jijia Liu,Feng Gao,Qingmin Liao,Chao Yu,Yu Wang
発行日 2025-05-29 03:49:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク