Learn What Is Possible, Then Choose What Is Best: Disentangling One-To-Many Relations in Language Through Text-based Games

要約

タイトル:テキストベースのゲームを通じた言語の一対多の関係を分離する:可能性を学び、最良のものを選択する

要約:

– NLPにおいては、大規模な自己教師付きコーパスで事前トレーニングを行い、タスクに特化した微調整が主流となっている。
– これらの事前トレーニングのデータセットには、例えば対話において、あるコンテキストに対して多くの有効な回答が存在するという一対多の構造がよく見られる。ただし、これらの回答のうち、下流タスクにおいて望ましいものはごく一部である。
– このため、望ましい振る舞いをエミュレートすることができるモデルを訓練する方法を検討する必要があるが、不望ましい振る舞いをエミュレートしないようにすることも考慮する必要がある。
– 現在のアプローチでは、単一の対話コンテキストに対して単一の対象回答を与えて訓練する一対一のセットアップで訓練するため、モデルが平均的な回答のみを予測し、全ての可能な回答の範囲を無視することがある。
– テキストベースのゲームをテストベッドとして使用し、私たちの手法であるPASAは、大規模な事前トレーニングデータセットに表現される異なる行動の範囲を捕捉するために離散的な潜在変数を使用する。
– 次に、知識蒸留を使用して事後確率分布を学生モデルに蒸留する。この確率分布はデータセットのハードターゲットだけから学ぶよりもはるかに豊かであり、したがって、学生モデルは教師モデルが学習したよりも豊富な行動範囲を受け継ぐことができる。
– 結果は、Jericho Walkthroughsデータセットにおいて従来の最高水準モデルに対して最大49%の実証的な改善を示している。

要約(オリジナル)

Language models pre-trained on large self-supervised corpora, followed by task-specific fine-tuning has become the dominant paradigm in NLP. These pre-training datasets often have a one-to-many structure–e.g. in dialogue there are many valid responses for a given context. However, only some of these responses will be desirable in our downstream task. This raises the question of how we should train the model such that it can emulate the desirable behaviours, but not the undesirable ones. Current approaches train in a one-to-one setup–only a single target response is given for a single dialogue context–leading to models only learning to predict the average response, while ignoring the full range of possible responses. Using text-based games as a testbed, our approach, PASA, uses discrete latent variables to capture the range of different behaviours represented in our larger pre-training dataset. We then use knowledge distillation to distil the posterior probability distribution into a student model. This probability distribution is far richer than learning from only the hard targets of the dataset, and thus allows the student model to benefit from the richer range of actions the teacher model has learned. Results show up to 49% empirical improvement over the previous state-of-the-art model on the Jericho Walkthroughs dataset.

arxiv情報

著者 Benjamin Towle,Ke Zhou
発行日 2023-04-14 17:11:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク