An Invitation to Deep Reinforcement Learning

要約

ターゲット目標を最大化するために深いニューラルネットワークをトレーニングすることは、過去10年間で機械学習を成功させるための標準的なレシピになりました。
これらのネットワークは、ターゲット目標が微分可能な場合、監視された学習で最適化できます。
多くの興味深い問題については、そうではありません。
ユニオン(IOU)の交差点、バイリンガル評価アンダースタディ(BLE)スコア、または報酬などの一般的な目的は、監視された学習で最適化できません。
一般的な回避策は、微分可能なサロゲート損失を定義し、実際の目的に関して最適ではないソリューションにつながることです。
Rehnection Learning(RL)は、近年、ディフェーリング不可能な目標を最大化するために、深いニューラルネットワークを最適化するための有望な代替手段として浮上しています。
例には、人間のフィードバックを介して大規模な言語モデルを調整すること、コード生成、オブジェクト検出、または制御の問題が含まれます。
これにより、RLテクニックは、より大きな機械学習オーディエンスに関連するものになります。
ただし、この対象は、幅広い方法としばしば非常に理論的なプレゼンテーションのために、アプローチするのに時間がかかります。
この紹介では、古典的な強化学習教科書とは異なる別のアプローチを取ります。
表形式の問題に焦点を当てるのではなく、補強学習を監視された学習の一般化として紹介します。これは、最初に非分化不可能な目的に適用され、その後の時間的問題に適用されます。
監視された学習の基本的な知識のみを仮定すると、読者はこのチュートリアルを読んだ後、近位政策最適化(PPO)などの最先端のディープRLアルゴリズムを理解することができます。

要約(オリジナル)

Training a deep neural network to maximize a target objective has become the standard recipe for successful machine learning over the last decade. These networks can be optimized with supervised learning, if the target objective is differentiable. For many interesting problems, this is however not the case. Common objectives like intersection over union (IoU), bilingual evaluation understudy (BLEU) score or rewards cannot be optimized with supervised learning. A common workaround is to define differentiable surrogate losses, leading to suboptimal solutions with respect to the actual objective. Reinforcement learning (RL) has emerged as a promising alternative for optimizing deep neural networks to maximize non-differentiable objectives in recent years. Examples include aligning large language models via human feedback, code generation, object detection or control problems. This makes RL techniques relevant to the larger machine learning audience. The subject is, however, time intensive to approach due to the large range of methods, as well as the often very theoretical presentation. In this introduction, we take an alternative approach, different from classic reinforcement learning textbooks. Rather than focusing on tabular problems, we introduce reinforcement learning as a generalization of supervised learning, which we first apply to non-differentiable objectives and later to temporal problems. Assuming only basic knowledge of supervised learning, the reader will be able to understand state-of-the-art deep RL algorithms like proximal policy optimization (PPO) after reading this tutorial.

arxiv情報

著者 Bernhard Jaeger,Andreas Geiger
発行日 2025-05-09 14:00:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク