Proximal Policy Optimization Actual Combat: Manipulating Output Tokenizer Length

要約

ヒューマン フィードバックからの強化学習 (RLHF) は、大規模言語モデル (LLM) の影響を形成する上で極めて重要な役割を果たし、特に LLM には誤解を招くコンテンツが含まれることが多いため、出力毒性の制御と出力スタイルの選択に大きく貢献し、それらを調整する緊急性を強調しています。
人間の価値観とともに安全な AI システムを実現します。
RLHF は、複雑さ、不安定性、およびハイパーパラメーターに対する感度を特徴としており、複雑なタスクの報酬モデルの評価を困難にし、それによって近接ポリシー最適化 (PPO) の使用をさらに複雑にしています。
このペーパーでは、PPO の有効性を検証し、PPO を刺激する報酬モデルとして Gloden を使用するように設計された単純なタスクを紹介します。主に、モデルによって生成される出力のトークナイザーの長さを操作するために PPO を利用するタスクについて説明します。
実験により、PPO はこの種のタスクにおいて出力トークナイザーの長さをある程度まで操作するのに効果的であるだけでなく、報酬モデル効果の影響を除外すると容易なトレーニングを示すことが確認されており、エキサイティングな開発となっています。

要約(オリジナル)

The Reinforcement Learning from Human Feedback (RLHF) plays a pivotal role in shaping the impact of large language models (LLMs), contributing significantly to controlling output toxicity and selecting output styles, particularly as LLMs often harbor misleading content, highlighting the urgency to align them with human values for secure AI systems. The RLHF, characterized by complexity, instability, and sensitivity to hyperparameters, makes the evaluation of the reward model for complex tasks challenging, thereby further complicating the use of Proximal Policy Optimization (PPO). In this paper, we introduce a simple task designed to employ Gloden as a reward model that validates the effectiveness of PPO and inspires it, primarily explaining the task of utilizing PPO to manipulate the tokenizer length of the output generated by the model. Experiments confirm that PPO is not only effective in manipulating the output tokenizer length to a certain extent in this type of task but also exhibits facilitated training once the influence of the reward model effect is excluded, making it an exciting development.

arxiv情報

著者 Miao Fan,Chen Hu,Shuchang Zhou
発行日 2023-08-10 13:50:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク