Cross-Lingual Supervision improves Large Language Models Pre-training

要約

大規模言語モデルの事前トレーニングにおける最近の急速な進歩は、次のトークン予測やスパン破損などの自己教師あり言語モデリング目標の使用に依存しています。
一方、機械翻訳システムは主に、ソース言語とターゲット言語間でデータを調整する必要がある、言語間の監視を使用してトレーニングされます。
自己教師あり言語モデリングの目標と教師あり機械翻訳の目標を組み合わせて大規模言語モデルを事前トレーニングすることにより、事前トレーニング中に言語間の並列データを含めることで、より優れたコンテキスト内学習能力を備えたモデルが得られることを実証します。
事前トレーニングは非常にリソースを大量に消費するプロセスであり、2 つの目的間の最適な混合比に関するグリッド検索は法外に高価であるため、事前トレーニング中にそれを学習するためのシンプルかつ効果的な戦略を提案します。

要約(オリジナル)

The recent rapid progress in pre-training Large Language Models has relied on using self-supervised language modeling objectives like next token prediction or span corruption. On the other hand, Machine Translation Systems are mostly trained using cross-lingual supervision that requires aligned data between source and target languages. We demonstrate that pre-training Large Language Models on a mixture of a self-supervised Language Modeling objective and the supervised Machine Translation objective, therefore including cross-lingual parallel data during pre-training, yields models with better in-context learning abilities. As pre-training is a very resource-intensive process and a grid search on the best mixing ratio between the two objectives is prohibitively expensive, we propose a simple yet effective strategy to learn it during pre-training.

arxiv情報

著者 Andrea Schioppa,Xavier Garcia,Orhan Firat
発行日 2023-05-19 16:14:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク