要約
学習信号が不足していますか?
既存のテキストの次の単語を予測することは、少なくとも大規模な強力な信号であることが判明しました。
しかし、私たちがこのリソースを使い果たしている兆候があります。
ここ数か月で、学習者とフィードバック提供者の相互作用が焦点を合わせました。「アラインメント」(試みに続いて指導の質を判断する報酬モデル)と「推論」(プロセスおよび結果ベースの検証者が推論ステップを判断する)を改善するためです。
この論文では、私たちが対話ゲームと呼ぶもの(主に口頭での行動によって推進されたルール統制活動)と呼ばれる程度の合成相互作用が、学習信号を提供し、この信号をどのように使用できるかを探ります。
オフラインとオンラインの両方で、このような相互作用データを作成するための環境を紹介します(学習者モデルに対応する大きな言語モデルの助けを借りて)。
DPOやGRPOなどの補強学習セットアップと同様に、このデータに対する監視された微調整の影響を調査します。
これらのアプローチのすべてがドメイン内ゲームでいくつかの改善を達成していることを示していますが、GRPOのみがドメイン外のゲームに一般化し、参照ベースのタスクで競争力のあるパフォーマンスを保持する能力を示しています。
この有望な新しい方向の研究を促進できることを期待して、フレームワークとベースライントレーニングセットアップをリリースします。
要約(オリジナル)
Are we running out of learning signal? Predicting the next word in an existing text has turned out to be a powerful signal, at least at scale. But there are signs that we are running out of this resource. In recent months, interaction between learner and feedback-giver has come into focus, both for ‘alignment’ (with a reward model judging the quality of instruction following attempts) and for improving ‘reasoning’ (process- and outcome-based verifiers judging reasoning steps). In this paper, we explore to what extent synthetic interaction in what we call Dialogue Games — goal-directed and rule-governed activities driven predominantly by verbal actions — can provide a learning signal, and how this signal can be used. We introduce an environment for producing such interaction data (with the help of a Large Language Model as counterpart to the learner model), both offline and online. We investigate the effects of supervised fine-tuning on this data, as well as reinforcement learning setups such as DPO, and GRPO; showing that all of these approaches achieve some improvements in in-domain games, but only GRPO demonstrates the ability to generalise to out-of-domain games as well as retain competitive performance in reference-based tasks. We release the framework and the baseline training setups in the hope that this can foster research in this promising new direction.
arxiv情報
著者 | Nicola Horst,Davide Mazzaccara,Antonia Schmidt,Michael Sullivan,Filippo Momentè,Luca Franceschetti,Philipp Sadler,Sherzod Hakimov,Alberto Testoni,Raffaella Bernardi,Raquel Fernández,Alexander Koller,Oliver Lemon,David Schlangen,Mario Giulianelli,Alessandro Suglia |
発行日 | 2025-04-11 14:49:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google