An Invitation to Deep Reinforcement Learning

要約

ターゲットの目標を最大化するためにディープ ニューラル ネットワークをトレーニングすることは、過去 10 年間で機械学習を成功させるための標準的なレシピになりました。
ターゲットの目的が微分可能であれば、これらのネットワークは教師あり学習で最適化できます。
ただし、多くの興味深い問題では、これは当てはまりません。
Intersection over Union (IoU)、バイリンガル評価アンダースタディ (BLEU) のスコアや報酬などの一般的な目標は、教師あり学習では最適化できません。
一般的な回避策は、微分可能な代理損失を定義することです。これにより、実際の目的に関して次善のソリューションが得られます。
強化学習(RL)は、近年、微分不可能な目的を最大化するためにディープ ニューラル ネットワークを最適化するための有望な代替手段として浮上しています。
例としては、人間によるフィードバック、コード生成、オブジェクト検出または制御問題による大規模な言語モデルの調整が挙げられます。
これにより、RL テクニックはより多くの機械学習の利用者に関連するものになります。
ただし、手法の範囲が広く、非常に理論的な表現が多いため、この主題に取り組むには時間がかかります。
この入門では、古典的な強化学習の教科書とは異なる別のアプローチを採用します。
表形式の問題に焦点を当てるのではなく、教師あり学習の一般化として強化学習を導入します。これを最初に微分不可能な目的に適用し、その後時間問題に適用します。
教師あり学習の基本的な知識のみを前提として、このチュートリアルを読んだ読者は、近接ポリシー最適化 (PPO) などの最先端の深層学習アルゴリズムを理解できるようになります。

要約(オリジナル)

Training a deep neural network to maximize a target objective has become the standard recipe for successful machine learning over the last decade. These networks can be optimized with supervised learning, if the target objective is differentiable. For many interesting problems, this is however not the case. Common objectives like intersection over union (IoU), bilingual evaluation understudy (BLEU) score or rewards cannot be optimized with supervised learning. A common workaround is to define differentiable surrogate losses, leading to suboptimal solutions with respect to the actual objective. Reinforcement learning (RL) has emerged as a promising alternative for optimizing deep neural networks to maximize non-differentiable objectives in recent years. Examples include aligning large language models via human feedback, code generation, object detection or control problems. This makes RL techniques relevant to the larger machine learning audience. The subject is, however, time intensive to approach due to the large range of methods, as well as the often very theoretical presentation. In this introduction, we take an alternative approach, different from classic reinforcement learning textbooks. Rather than focusing on tabular problems, we introduce reinforcement learning as a generalization of supervised learning, which we first apply to non-differentiable objectives and later to temporal problems. Assuming only basic knowledge of supervised learning, the reader will be able to understand state-of-the-art deep RL algorithms like proximal policy optimization (PPO) after reading this tutorial.

arxiv情報

著者 Bernhard Jaeger,Andreas Geiger
発行日 2023-12-13 18:57:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク