SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking

要約

多くの領域において、自己回帰モデルは次の観測を予測するタスクにおいて高い尤度を達成することができる。しかしながら、この最尤度(MLE)目的は、高品質なシーケンスを自己回帰的に生成するという下流のユースケースには必ずしもマッチしません。MLE目的は、データ分布下での頻度に比例してシーケンスに重み付けを行うが、分布外(OOD)でのモデルの振る舞いに対するガイダンスはない。この複合誤差の問題に対処するために、シーケンス生成を模倣学習(IL)問題として定式化する。これによって、自己回帰モデルによって生成された配列の分布とデータセットからの配列との間の様々な発散(OODによって生成された配列に重み付けされた発散を含む)を最小化することができる。ILフレームワークはまた、バックスペース動作を生成プロセスに導入することにより、バックトラックを組み込むことを可能にする。これは、モデルがシーケンスをOODとした場合、サンプリングされたトークンを戻すことを可能にすることで、複合エラーの問題をさらに緩和する。結果として得られた手法であるSequenceMatchは、敵対的な訓練やアーキテクチャの変更なしに実装することができる。SequenceMatch-$chi^2$発散が、生成に用いられる自己回帰モデルにより適した学習目的であることを確認する。経験的に、SequenceMatch訓練が、言語モデルと算術を用いたテキスト生成において、MLEを上回る改善をもたらすことを示す。

要約(オリジナル)

In many domains, autoregressive models can attain high likelihood on the task of predicting the next observation. However, this maximum-likelihood (MLE) objective does not necessarily match a downstream use-case of autoregressively generating high-quality sequences. The MLE objective weights sequences proportionally to their frequency under the data distribution, with no guidance for the model’s behaviour out of distribution (OOD): leading to compounding error during autoregressive generation. In order to address this compounding error problem, we formulate sequence generation as an imitation learning (IL) problem. This allows us to minimize a variety of divergences between the distribution of sequences generated by an autoregressive model and sequences from a dataset, including divergences with weight on OOD generated sequences. The IL framework also allows us to incorporate backtracking by introducing a backspace action into the generation process. This further mitigates the compounding error problem by allowing the model to revert a sampled token if it takes the sequence OOD. Our resulting method, SequenceMatch, can be implemented without adversarial training or architectural changes. We identify the SequenceMatch-$\chi^2$ divergence as a more suitable training objective for autoregressive models which are used for generation. We show that empirically, SequenceMatch training leads to improvements over MLE on text generation with language models and arithmetic.

arxiv情報

著者 Chris Cundy,Stefano Ermon
発行日 2024-05-06 16:02:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク