要約
ニューラル言語モデルは、人間のテキストの確率モデルです。
これらは主に最尤推定 (MLE) を使用してトレーニングされます。これは、経験的データ分布とモデル分布の間の順方向クロスエントロピーを最小化することに相当します。
しかし、そのようなモデルによって学習された分布から解読する場合、さまざまな縮退現象が依然として広く観察されています。
我々は、順方向クロスエントロピーが、(1) 再現率の優先順位付け、(2) 負の多様性の無視、および (3) トレーニングとテストの不一致のため、人間とモデルの分布を調整するための距離測定基準として最適ではないことを確立します。
この論文では、自己回帰言語モデリングのための Earth Mover Distance Optimization (EMO) を提案します。
EMO は、アースムーバーの距離に固有の特性を利用して、前述の課題に対処します。
直接計算は非常に複雑であるため、エンドツーエンドのトレーニングを容易にするために、EMO に実行可能な上限をさらに導入します。
EMO と MLE を使用してトレーニングされた言語モデルの広範な評価に基づいて。
EMO は、複数のドメインにわたって MLE よりも一貫して優れた言語モデリング パフォーマンスを示していることがわかりました。
さらに、EMO は、わずか 25,000 文に対する最小限の微調整で、ダウンストリーム パフォーマンスの顕著な向上を示しています。
これは、大規模な事前トレーニング済み言語モデルを強化するための軽量キャリブレーション方法としての EMO の大きな可能性を強調しています。
要約(オリジナル)
Neural language models are probabilistic models of human text. They are predominantly trained using maximum likelihood estimation (MLE), which is equivalent to minimizing the forward cross-entropy between the empirical data distribution and the model distribution. However, various degeneration phenomena are still widely observed when decoding from the distributions learned by such models. We establish that the forward cross-entropy is suboptimal as a distance metric for aligning human and model distribution due to its (1) recall-prioritization (2) negative diversity ignorance and (3) train-test mismatch. In this paper, we propose Earth Mover Distance Optimization (EMO) for auto-regressive language modeling. EMO capitalizes on the inherent properties of earth mover distance to address the aforementioned challenges. Due to the high complexity of direct computation, we further introduce a feasible upper bound for EMO to ease end-to-end training. Upon extensive evaluation of language models trained using EMO and MLE. We find that EMO demonstrates a consistently better language modeling performance than MLE across domains. Moreover, EMO demonstrates noteworthy enhancements in downstream performance with minimal fine-tuning on merely 25,000 sentences. This highlights the tremendous potential of EMO as a lightweight calibration method for enhancing large-scale pre-trained language models.
arxiv情報
著者 | Siyu Ren,Zhiyong Wu,Kenny Q. Zhu |
発行日 | 2024-01-30 15:11:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google