To Code, or Not To Code? Exploring Impact of Code in Pre-training

要約

コード用に特別に設計されていないモデルであっても、事前トレーニング データの混合にコードを含めることは、LLM の事前トレーニングでは一般的な手法となっています。
コード データが一般的な LLM のパフォーマンスに重要な役割を果たしているという逸話的なコンセンサスが専門家の間で存在していますが、コード以外のタスクに対するコードの正確な影響を分析する研究は限られています。
この研究では、コード データが一般的なパフォーマンスに与える影響を体系的に調査します。
私たちは、「事前トレーニングで使用されるコード データが、コード生成を超えたさまざまな下流タスクにどのような影響を与えるか」を尋ねます。
当社では広範なアブレーションを実施し、自然言語推論タスク、世界知識タスク、コード ベンチマーク、および 4 億 7000 万から 2.8 億パラメータのサイズのモデルのジャッジとしての LLM 勝率を広範囲にわたって評価します。
どの設定においても、コードはコーディング タスクをはるかに超えた一般化にとって重要な構成要素であり、コード品質の改善がすべてのタスクに多大な影響を与えるという一貫した結果が見つかりました。
特に、テキストのみの事前トレーニングと比較して、コードを追加すると、自然言語 (NL) 推論で最大 8.2%、世界知識で 4.2%、生成勝率で 6.6% の相対的な向上が見られます。
コードのパフォーマンスがそれぞれ 12 倍向上します。
私たちの研究は、コード品質への投資と事前トレーニング中のコードの保存がプラスの影響を与えることを示唆しています。

要約(オリジナル)

Including code in the pre-training data mixture, even for models not specifically designed for code, has become a common practice in LLMs pre-training. While there has been anecdotal consensus among practitioners that code data plays a vital role in general LLMs’ performance, there is only limited work analyzing the precise impact of code on non-code tasks. In this work, we systematically investigate the impact of code data on general performance. We ask ‘what is the impact of code data used in pre-training on a large variety of downstream tasks beyond code generation’. We conduct extensive ablations and evaluate across a broad range of natural language reasoning tasks, world knowledge tasks, code benchmarks, and LLM-as-a-judge win-rates for models with sizes ranging from 470M to 2.8B parameters. Across settings, we find a consistent results that code is a critical building block for generalization far beyond coding tasks and improvements to code quality have an outsized impact across all tasks. In particular, compared to text-only pre-training, the addition of code results in up to relative increase of 8.2% in natural language (NL) reasoning, 4.2% in world knowledge, 6.6% improvement in generative win-rates, and a 12x boost in code performance respectively. Our work suggests investments in code quality and preserving code during pre-training have positive impacts.

arxiv情報

著者 Viraat Aryabumi,Yixuan Su,Raymond Ma,Adrien Morisot,Ivan Zhang,Acyr Locatelli,Marzieh Fadaee,Ahmet Üstün,Sara Hooker
発行日 2024-08-20 14:58:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク