要約
ネクスト トークン予測 (NTP) パラダイムに基づいてトレーニングされた大規模言語モデル (LLM) は、強力な機能を実証しています。
ただし、既存の NTP パラダイムには、特に計画されたタスクの複雑化と推論中のエラー伝播に関連するいくつかの制限があります。
私たちの研究では、NTP の批判を拡張し、次善のワンホット分布の予測という狭い目的でのトレーニングにも起因する NTP の限界を強調しています。
この批判を裏付けるために、私たちは強力な LLM からの出力分布を効率的なワールド データ圧縮として扱う事前実験を実施しました。
$n$-gram 分布と LLM を使用したワンホット分布の類似性を評価することにより、$n$-gram 分布が LLM の出力分布とより密接に一致していることが観察されました。
この洞察に基づいて、$n$-gram 分布を使用してワンホット ターゲットを置き換え、追加のオンライン トレーニング時間を費やすことなく学習を強化する Next Distribution Prediction (NDP) を導入します。
私たちは、翻訳、一般的なタスク、言語伝達、医療領域への適応にわたる実験を実施しました。
NTP と比較して、NDP は翻訳タスクで最大 +2.97 COMET の改善、一般タスクで +0.61 の平均改善、医療分野で +10.75 という驚異的な平均改善を達成できます。
これは、ターゲットの絞り込みの問題に対処することの具体的な利点を示しており、NTP を改善するための今後の取り組みの新たな方向性を示しています。
要約(オリジナル)
Large language models (LLMs) trained on next-token prediction (NTP) paradigm have demonstrated powerful capabilities. However, the existing NTP paradigm contains several limitations, particularly related to planned task complications and error propagation during inference. In our work, we extend the critique of NTP, highlighting its limitation also due to training with a narrow objective: the prediction of a sub-optimal one-hot distribution. To support this critique, we conducted a pre-experiment treating the output distribution from powerful LLMs as efficient world data compression. By evaluating the similarity between the $n$-gram distribution and the one-hot distribution with LLMs, we observed that the $n$-gram distributions align more closely with the output distribution of LLMs. Based on this insight, we introduce Next Distribution Prediction (NDP), which uses $n$-gram distributions to replace the one-hot targets, enhancing learning without extra online training time. We conducted experiments across translation, general task, language transfer, and medical domain adaptation. Compared to NTP, NDP can achieve up to +2.97 COMET improvement in translation tasks, +0.61 average improvement in general tasks, and incredible +10.75 average improvement in the medical domain. This demonstrates the concrete benefits of addressing the target narrowing problem, pointing to a new direction for future work on improving NTP.
arxiv情報
著者 | Junhao Ruan,Abudukeyumu Abudula,Xinyu Liu,Bei Li,Yinqiao Li,Chenglong Wang,Yuchun Fan,Yuan Ge,Tong Xiao,Jingbo Zhu |
発行日 | 2024-08-30 16:13:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google