N-gram Prediction and Word Difference Representations for Language Modeling

要約

因果言語モデリング (CLM) は、最近の大規模言語モデル (LLM) の目覚ましい成功を支える基礎フレームワークとして機能します。
その成功にもかかわらず、次の単語を予測するためのトレーニング アプローチには、モデルが文内の局所的な依存関係に過度に焦点を当てる潜在的なリスクが生じます。
将来の N 単語を同時に予測する先行研究が導入されていますが、それらは主にマスク言語モデリング (MLM) やニューラル機械翻訳 (NMT) などのタスクに適用されていました。
この研究では、CLM タスク用の単純な N グラム予測フレームワークを紹介します。
さらに、N グラム予測フレームワークに基づいたモデルのトレーニング中に、サロゲートおよび文脈化されたターゲット表現として単語差分表現 (WDR) を導入します。
次単語予測の品質をさらに高めるために、将来の N 単語の予測結果を組み込んだアンサンブル手法を提案します。
CLM および NMT タスクを含む複数のベンチマーク データセットにわたる経験的評価により、従来の CLM に対する提案手法の大きな利点が実証されています。

要約(オリジナル)

Causal language modeling (CLM) serves as the foundational framework underpinning remarkable successes of recent large language models (LLMs). Despite its success, the training approach for next word prediction poses a potential risk of causing the model to overly focus on local dependencies within a sentence. While prior studies have been introduced to predict future N words simultaneously, they were primarily applied to tasks such as masked language modeling (MLM) and neural machine translation (NMT). In this study, we introduce a simple N-gram prediction framework for the CLM task. Moreover, we introduce word difference representation (WDR) as a surrogate and contextualized target representation during model training on the basis of N-gram prediction framework. To further enhance the quality of next word prediction, we propose an ensemble method that incorporates the future N words’ prediction results. Empirical evaluations across multiple benchmark datasets encompassing CLM and NMT tasks demonstrate the significant advantages of our proposed methods over the conventional CLM.

arxiv情報

著者 DongNyeong Heo,Daniela Noemi Rim,Heeyoul Choi
発行日 2024-09-05 07:03:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク