Unveiling the Impact of Coding Data Instruction Fine-Tuning on Large Language Models Reasoning

要約

命令微調整 (IFT) は、事前トレーニングされた大規模言語モデル (LLM) のゼロショット機能を大幅に強化します。
データのコーディングは、事前トレーニング中に LLM 推論能力を高めることが知られていますが、IFT 中に内部推論能力を活性化するその役割はまだ十分に研究されていません。
この論文では、「コーディング データは IFT 段階での LLM の推論能力にどのような影響を与えるのか?」という重要な疑問を調査します。
これを調査するために、さまざまなコーディング データの割合、モデル ファミリ、サイズ、推論ドメインにわたるコーディング データの影響をさまざまな観点から徹底的に調査します。
具体的には、コーディング データの割合を増やした 3 つの IFT データセットを作成し、これらのデータセットのさまざまなファミリーとスケールにわたって 6 つの LLM バックボーンを微調整し、3 つの推論ドメインの 12 のタスクにわたって調整されたモデルのパフォーマンスを評価し、3 つの広範な結果からの結果を分析します。
より詳細な視点: 全体、ドメインレベル、およびタスク固有。
私たちの総合的な分析は、それぞれの視点に対する貴重な洞察を提供します。
まず、コーディング データのチューニングにより、さまざまなモデル ファミリやスケールにわたる LLM の全体的な推論機能が強化されます。
さらに、コーディング データの影響はドメインによって異なりますが、各ドメイン内ではさまざまなモデル ファミリやスケールにわたって一貫した傾向が示されています。
さらに、コーディング データは通常、モデル ファミリ全体で同等のタスク固有の利点を提供し、IFT データセットの最適な割合はタスクに依存します。

要約(オリジナル)

Instruction Fine-Tuning (IFT) significantly enhances the zero-shot capabilities of pretrained Large Language Models (LLMs). While coding data is known to boost LLM reasoning abilities during pretraining, its role in activating internal reasoning capacities during IFT remains understudied. This paper investigates a key question: How does coding data impact LLMs’ reasoning capacities during IFT stage? To explore this, we thoroughly examine the impact of coding data across different coding data proportions, model families, sizes, and reasoning domains, from various perspectives. Specifically, we create three IFT datasets with increasing coding data proportions, fine-tune six LLM backbones across different families and scales on these datasets, evaluate the tuned models’ performance across twelve tasks in three reasoning domains, and analyze the outcomes from three broad-to-granular perspectives: overall, domain-level, and task-specific. Our holistic analysis provides valuable insights into each perspective. First, coding data tuning enhances the overall reasoning capabilities of LLMs across different model families and scales. Moreover, while the impact of coding data varies by domain, it shows consistent trends within each domain across different model families and scales. Additionally, coding data generally provides comparable task-specific benefits across model families, with optimal proportions in IFT datasets being task-dependent.

arxiv情報

著者 Xinlu Zhang,Zhiyu Zoey Chen,Xi Ye,Xianjun Yang,Lichang Chen,William Yang Wang,Linda Ruth Petzold
発行日 2024-12-12 18:45:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク