Towards General-Purpose Model-Free Reinforcement Learning

要約

強化学習(RL)は、ほぼ普遍的な問題解決のフレームワークを約束します。
ただし、実際には、RLアルゴリズムは特定のベンチマークに合わせて調整されており、慎重に調整されたハイパーパラメーターとアルゴリズムの選択に依存しています。
最近、強力なモデルベースのRLメソッドは、ベンチマーク全体で印象的な一般的な結果を示していますが、複雑さと走行時間が遅いため、より幅広い適用性が制限されます。
このホワイトペーパーでは、多様なクラスのドメインと問題設定に対処できる統一モデルフリーのディープRLアルゴリズムを見つけようとします。
これを達成するために、値関数をほぼ線形化するモデルベースの表現を活用して、計画またはシミュレーションされた軌道に関連するコストを回避しながら、モデルベースのRLで使用されるより密度の高いタスク目的を活用します。
ハイパーパラメーターの単一セットを備えたさまざまな一般的なRLベンチマークでアルゴリズムであるMr.Qを評価し、ドメイン固有の一般的なベースラインに対して競争力のあるパフォーマンスを示し、汎用モデルのないディープRLアルゴリズムの構築に向けた具体的なステップを提供します。

要約(オリジナル)

Reinforcement learning (RL) promises a framework for near-universal problem-solving. In practice however, RL algorithms are often tailored to specific benchmarks, relying on carefully tuned hyperparameters and algorithmic choices. Recently, powerful model-based RL methods have shown impressive general results across benchmarks but come at the cost of increased complexity and slow run times, limiting their broader applicability. In this paper, we attempt to find a unifying model-free deep RL algorithm that can address a diverse class of domains and problem settings. To achieve this, we leverage model-based representations that approximately linearize the value function, taking advantage of the denser task objectives used by model-based RL while avoiding the costs associated with planning or simulated trajectories. We evaluate our algorithm, MR.Q, on a variety of common RL benchmarks with a single set of hyperparameters and show a competitive performance against domain-specific and general baselines, providing a concrete step towards building general-purpose model-free deep RL algorithms.

arxiv情報

著者 Scott Fujimoto,Pierluca D’Oro,Amy Zhang,Yuandong Tian,Michael Rabbat
発行日 2025-01-27 15:36:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク