Horizon Reduction Makes RL Scalable

要約

この作業では、オフライン強化学習(RL)アルゴリズムのスケーラビリティを研究します。
原則として、本当にスケーラブルなオフラインRLアルゴリズムは、十分なデータ、計算、およびモデル容量を考慮して、その複雑さに関係なく、特定の問題を解決できるはずです。
一般的なオフラインのRLアルゴリズムが、一般的なオフラインRLデータセットよりも最大1000倍のデータセットを使用して、多様で挑戦的で未解決のタスクに関するこの約束と一致するかどうか、どのように調査します。
データのスケールアップにもかかわらず、多くの既存のオフラインRLアルゴリズムは、最大パフォーマンスをはるかに下回るスケーリング動作が不十分であることがわかります。
地平線は、オフラインRLのスケーリングの悪い背後にある主な原因であると仮定します。
いくつかの分析実験を通じてこの仮説を経験的に検証し、長い視野が実際にオフラインRLをスケーリングするための基本的な障壁を示していることを示しています。
次に、さまざまな地平線削減技術が、挑戦的なタスクのスケーラビリティを大幅に向上させることを示します。
洞察に基づいて、ホライズンを効果的に削減するSharsaという名前の最小限のスケーラブルな方法も導入します。
Sharsaは、評価方法の中で最も漸近的なパフォーマンスとスケーリング動作を達成し、Horizo​​nを明示的に減らすとオフラインRLのスケーラビリティが解き放たれることを示しています。
コード:https://github.com/seohongpark/horizo​​n-reduction

要約(オリジナル)

In this work, we study the scalability of offline reinforcement learning (RL) algorithms. In principle, a truly scalable offline RL algorithm should be able to solve any given problem, regardless of its complexity, given sufficient data, compute, and model capacity. We investigate if and how current offline RL algorithms match up to this promise on diverse, challenging, previously unsolved tasks, using datasets up to 1000x larger than typical offline RL datasets. We observe that despite scaling up data, many existing offline RL algorithms exhibit poor scaling behavior, saturating well below the maximum performance. We hypothesize that the horizon is the main cause behind the poor scaling of offline RL. We empirically verify this hypothesis through several analysis experiments, showing that long horizons indeed present a fundamental barrier to scaling up offline RL. We then show that various horizon reduction techniques substantially enhance scalability on challenging tasks. Based on our insights, we also introduce a minimal yet scalable method named SHARSA that effectively reduces the horizon. SHARSA achieves the best asymptotic performance and scaling behavior among our evaluation methods, showing that explicitly reducing the horizon unlocks the scalability of offline RL. Code: https://github.com/seohongpark/horizon-reduction

arxiv情報

著者 Seohong Park,Kevin Frans,Deepinder Mann,Benjamin Eysenbach,Aviral Kumar,Sergey Levine
発行日 2025-06-04 17:06:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク