Fewer Truncations Improve Language Modeling

要約

大規模な言語モデルのトレーニングでは、通常、入力ドキュメントは連結され、トークンのパディングを避けるために同じ長さのシーケンスに分割されます。
連結アプローチはその効率性にもかかわらず、データの整合性を損なうものです。必然的に多くのドキュメントが不完全な部分に分割され、過度の切り捨てが発生し、モデルが完全なコンテキストに基づいた論理的に一貫した事実と一貫したコンテンツを構成する学習を妨げます。
この問題に対処するために、長さを意識した組み合わせ最適化を通じてドキュメントをトレーニング シーケンスにパックするスケーラブルで効率的な方法であるベストフィット パッキングを提案します。
私たちの方法は、連結と同じトレーニング効率を維持しながら、不必要な切り捨てを完全に排除します。
テキストとコードの両方の事前トレーニングからの経験的結果は、私たちの方法が優れたパフォーマンスを達成し(たとえば、読解で相対的に+4.7%、文脈追従で+16.8%、プログラム合成で+9.2%)、クローズドドメイン幻覚を軽減することを示しています。
実質的には最大 58.3% 増加します。

要約(オリジナル)

In large language model training, input documents are typically concatenated together and then split into sequences of equal length to avoid padding tokens. Despite its efficiency, the concatenation approach compromises data integrity — it inevitably breaks many documents into incomplete pieces, leading to excessive truncations that hinder the model from learning to compose logically coherent and factually consistent content that is grounded on the complete context. To address the issue, we propose Best-fit Packing, a scalable and efficient method that packs documents into training sequences through length-aware combinatorial optimization. Our method completely eliminates unnecessary truncations while retaining the same training efficiency as concatenation. Empirical results from both text and code pre-training show that our method achieves superior performance (e.g., relatively +4.7% on reading comprehension; +16.8% in context following; and +9.2% on program synthesis), and reduces closed-domain hallucination effectively by up to 58.3%.

arxiv情報

著者 Hantian Ding,Zijian Wang,Giovanni Paolini,Varun Kumar,Anoop Deoras,Dan Roth,Stefano Soatto
発行日 2024-05-02 17:10:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク