Playpen: An Environment for Exploring Learning Through Conversational Interaction

要約

学習信号が不足していますか?
既存のテキストの次の単語を予測することは、少なくとも大規模な強力な信号であることが判明しました。
しかし、私たちがこのリソースを使い果たしている兆候があります。
ここ数か月で、学習者とフィードバック提供者の相互作用が焦点を合わせました。「アラインメント」(試みに続いて指導の質を判断する報酬モデル)と「推論」(プロセスおよび結果ベースの検証者が推論ステップを判断する)を改善するためです。
この論文では、私たちが対話ゲームと呼ぶもの(主に口頭での行動によって推進されたルール統制活動)と呼ばれる程度の合成相互作用が、学習信号を提供し、この信号をどのように使用できるかを探ります。
オフラインとオンラインの両方で、このような相互作用データを作成するための環境を紹介します(学習者モデルに対応する大き​​な言語モデルの助けを借りて)。
DPOやGRPOなどの補強学習セットアップと同様に、このデータに対する監視された微調整の影響を調査します。
これらのアプローチのすべてがドメイン内ゲームでいくつかの改善を達成していることを示していますが、GRPOのみがドメイン外のゲームに一般化し、参照ベースのタスクで競争力のあるパフォーマンスを保持する能力を示しています。
この有望な新しい方向の研究を促進できることを期待して、フレームワークとベースライントレーニングセットアップをリリースします。

要約(オリジナル)

Are we running out of learning signal? Predicting the next word in an existing text has turned out to be a powerful signal, at least at scale. But there are signs that we are running out of this resource. In recent months, interaction between learner and feedback-giver has come into focus, both for ‘alignment’ (with a reward model judging the quality of instruction following attempts) and for improving ‘reasoning’ (process- and outcome-based verifiers judging reasoning steps). In this paper, we explore to what extent synthetic interaction in what we call Dialogue Games — goal-directed and rule-governed activities driven predominantly by verbal actions — can provide a learning signal, and how this signal can be used. We introduce an environment for producing such interaction data (with the help of a Large Language Model as counterpart to the learner model), both offline and online. We investigate the effects of supervised fine-tuning on this data, as well as reinforcement learning setups such as DPO, and GRPO; showing that all of these approaches achieve some improvements in in-domain games, but only GRPO demonstrates the ability to generalise to out-of-domain games as well as retain competitive performance in reference-based tasks. We release the framework and the baseline training setups in the hope that this can foster research in this promising new direction.

arxiv情報

著者 Nicola Horst,Davide Mazzaccara,Antonia Schmidt,Michael Sullivan,Filippo Momentè,Luca Franceschetti,Philipp Sadler,Sherzod Hakimov,Alberto Testoni,Raffaella Bernardi,Raquel Fernández,Alexander Koller,Oliver Lemon,David Schlangen,Mario Giulianelli,Alessandro Suglia
発行日 2025-04-11 14:49:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク