要約
言語モデリングにおける最近の研究により、外部フィードバックなしでより高いパフォーマンスを達成するために言語モデルが自身の世代を評価および改良する自己改善の可能性が高まっています。
この自己改善でモデルに存在しない情報を作成することは不可能ですが、なぜこれが能力の向上につながると期待できるのでしょうか?
私たちは、「研ぎ澄まし」と呼ぶレンズを通して、自己改善の能力について新しい視点を提供します。
言語モデルは、正しい応答を生成することよりも、応答の質を検証することに優れていることが多いという観察に動機付けられて、私たちは、モデルを「研ぎ澄ます」ために、ポストトレーニング中にモデル自体を検証者として使用することとして自己改善を形式化します。
1 つは高品質のシーケンスに大きな重点を置き、それによって良好なシーケンスを生成するための高価な推論時間の計算を償却します。
まず、学習者がサンプル アクセスを通じて事前トレーニングされた基本ポリシーをシャープにし、基本的な制限を確立することを目的としたシャープ化のための新しい統計フレームワークを導入します。
次に、SFT と RLHF に基づいた自己改善アルゴリズムの 2 つの自然なファミリーを分析します。
(i) 初期モデルが十分なカバレッジを備えている場合、SFT ベースのアプローチはミニマックス最適ですが、(ii) RLHF ベースのアプローチは、オンライン探索を活用することでカバレッジの必要性を回避し、SFT ベースの自己改善を改善できることがわかりました。
。
最後に、推論時間と償却実験を通じてシャープ化メカニズムを経験的に検証します。
私たちはこれらの発見を、自己改善アルゴリズムの設計と評価の指針となる基礎的な理解に向けた出発点とみなしています。
要約(オリジナル)
Recent work in language modeling has raised the possibility of self-improvement, where a language models evaluates and refines its own generations to achieve higher performance without external feedback. It is impossible for this self-improvement to create information that is not already in the model, so why should we expect that this will lead to improved capabilities? We offer a new perspective on the capabilities of self-improvement through a lens we refer to as sharpening. Motivated by the observation that language models are often better at verifying response quality than they are at generating correct responses, we formalize self-improvement as using the model itself as a verifier during post-training in order to “sharpen” the model to one placing large mass on high-quality sequences, thereby amortizing the expensive inference-time computation of generating good sequences. We begin by introducing a new statistical framework for sharpening in which the learner aims to sharpen a pre-trained base policy via sample access, and establish fundamental limits. Then we analyze two natural families of self-improvement algorithms based on SFT and RLHF. We find that (i) the SFT-based approach is minimax optimal whenever the initial model has sufficient coverage, but (ii) the RLHF-based approach can improve over SFT-based self-improvement by leveraging online exploration, bypassing the need for coverage. Finally, we empirically validate the sharpening mechanism via inference-time and amortization experiments. We view these findings as a starting point toward a foundational understanding that can guide the design and evaluation of self-improvement algorithms.
arxiv情報
著者 | Audrey Huang,Adam Block,Dylan J. Foster,Dhruv Rohatgi,Cyril Zhang,Max Simchowitz,Jordan T. Ash,Akshay Krishnamurthy |
発行日 | 2024-12-04 14:20:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google