要約
自己回帰言語モデルは、データ分布 P に対するモデル分布 Q のクロス エントロピーを最小化することによってトレーニングされます。つまり、最尤推定 (MLE) と同等の順方向クロス エントロピーを最小化します。
この方法でトレーニングされたモデルは、人間らしくないテキストを生成するという意味で「過度に一般化」する可能性があることが観察されています。
さらに、逆クロスエントロピー、つまり Q に対する P のクロスエントロピーは、モデルによって生成されたテキストを人間がどのように評価するかをよりよく反映していると考えられます。
したがって、順方向クロスエントロピーと逆方向クロスエントロピーを混合する目標である MixCE を使用した学習を提案します。
この目的で合成データ設定 (P が既知の場合) と実際のデータでトレーニングされたモデルを評価し、結果のモデルが複雑なデコード戦略を必要とせずに、より適切に生成されたテキストを生成することを示します。
私たちのコードとモデルは https://github.com/bloomberg/mixce-acl2023 で公開されています。
要約(オリジナル)
Autoregressive language models are trained by minimizing the cross-entropy of the model distribution Q relative to the data distribution P — that is, minimizing the forward cross-entropy, which is equivalent to maximum likelihood estimation (MLE). We have observed that models trained in this way may ‘over-generalize’, in the sense that they produce non-human-like text. Moreover, we believe that reverse cross-entropy, i.e., the cross-entropy of P relative to Q, is a better reflection of how a human would evaluate text generated by a model. Hence, we propose learning with MixCE, an objective that mixes the forward and reverse cross-entropies. We evaluate models trained with this objective on synthetic data settings (where P is known) and real data, and show that the resulting models yield better generated text without complex decoding strategies. Our code and models are publicly available at https://github.com/bloomberg/mixce-acl2023
arxiv情報
著者 | Shiyue Zhang,Shijie Wu,Ozan Irsoy,Steven Lu,Mohit Bansal,Mark Dredze,David Rosenberg |
発行日 | 2023-05-26 14:14:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google