要約
言語モデル(LM)ユーザーが世代の品質を向上させることを目指している場合、モデルが反映するよう努力すべき具体的な行動属性を指定することが重要です。
ただし、多くのドメインでそのような原則をキュレーションすることは、非網羅的にさえ、労働集約的な注釈プロセスを必要とします。
このプロセスを自動化するために、自己修正設定で明示的にモデル化することにより、これらの潜在的な属性を人間優先応答に向けてガイドするモデルの推論を引き出すことを提案します。
私たちのアプローチは、LM自体から新しい原則を採掘し、発見された要素をクラスタリングを介して解釈可能なセットに圧縮します。
具体的には、後部正規化されたモンテカルロの期待最大化の近似を採用して、最も効果的な潜在原理の凝縮セットを識別し、LMに反応を本質的に改善するために戦略的に呼び起こすように教えます。
複数の反復にわたるアルゴリズムのブートストラップにより、より小さな言語モデル(7-8Bパラメーター)が自己改善を可能にし、アルパカエバルの勝率で +8-10%、MTベンチで平均+0.3、原則的なフォール入力の獲得率で +19-23%を達成することを実証します。
また、原則をクラスタリングすると、モデルのパフォーマンスを維持しながら、解釈可能で多様なモデル生成憲法が得られることも示しています。
私たちの方法は、継続的な自己改善に向けて、自動化された原則主導の訓練後のレシピの可能性を強調しています。
要約(オリジナル)
When language model (LM) users aim to improve the quality of its generations, it is crucial to specify concrete behavioral attributes that the model should strive to reflect. However, curating such principles across many domains, even non-exhaustively, requires a labor-intensive annotation process. To automate this process, we propose eliciting these latent attributes guiding model reasoning towards human-preferred responses by explicitly modeling them in a self-correction setting. Our approach mines new principles from the LM itself and compresses the discovered elements to an interpretable set via clustering. Specifically, we employ an approximation of posterior-regularized Monte Carlo Expectation-Maximization to both identify a condensed set of the most effective latent principles and teach the LM to strategically invoke them in order to intrinsically refine its responses. We demonstrate that bootstrapping our algorithm over multiple iterations enables smaller language models (7-8B parameters) to self-improve, achieving +8-10% in AlpacaEval win-rate, an average of +0.3 on MT-Bench, and +19-23% in principle-following win-rate on IFEval. We also show that clustering the principles yields interpretable and diverse model-generated constitutions while retaining model performance. The gains our method achieves highlight the potential of automated, principle-driven post-training recipes toward continual self-improvement.
arxiv情報
著者 | Keshav Ramji,Tahira Naseem,Ramón Fernandez Astudillo |
発行日 | 2025-05-22 17:20:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google