AlchemistCoder: Harmonizing and Eliciting Code Capability by Hindsight Tuning on Multi-source Data

要約

オープンソースの大規模言語モデル (LLM) とその特殊なバリアント、特にコード LLM は、最近、目覚ましいパフォーマンスを発揮しています。
ただし、以前の Code LLM は通常、品質と多様性が限られた単一ソース データに基づいて微調整されており、事前トレーニングされた Code LLM の可能性を十分に引き出すことができない可能性があります。
このペーパーでは、強化されたコード生成機能とマルチソース データに基づいて微調整された一般化機能を備えた一連の Code LLM である AlchemistCoder を紹介します。
これを達成するために、私たちは、マルチソース コード コーパスのさまざまなスタイルと品質の間で内在する矛盾を先駆的に明らかにし、AlchemistPrompts と呼ばれる後知恵でラベル付けし直すデータ固有のプロンプトを導入して、さまざまなデータ ソースと命令と応答のペアを調和させます。
さらに、命令の進化、データのフィルタリング、コード レビューなどのコード理解タスクとして、データ構築プロセスをデータの微調整に組み込むことを提案します。
広範な実験により、AlchemistCoder が同じサイズ (6.7B/7B) のすべてのモデルの中で明確にリードしており、より大きなモデル (15B/33B/70B) に匹敵するか、さらにはそれを上回っていることが実証され、命令追従機能と
コードインテリジェンスの限界を前進させます。

要約(オリジナル)

Open-source Large Language Models (LLMs) and their specialized variants, particularly Code LLMs, have recently delivered impressive performance. However, previous Code LLMs are typically fine-tuned on single-source data with limited quality and diversity, which may insufficiently elicit the potential of pre-trained Code LLMs. In this paper, we present AlchemistCoder, a series of Code LLMs with enhanced code generation and generalization capabilities fine-tuned on multi-source data. To achieve this, we pioneer to unveil inherent conflicts among the various styles and qualities in multi-source code corpora and introduce data-specific prompts with hindsight relabeling, termed AlchemistPrompts, to harmonize different data sources and instruction-response pairs. Additionally, we propose incorporating the data construction process into the fine-tuning data as code comprehension tasks, including instruction evolution, data filtering, and code review. Extensive experiments demonstrate that AlchemistCoder holds a clear lead among all models of the same size (6.7B/7B) and rivals or even surpasses larger models (15B/33B/70B), showcasing the efficacy of our method in refining instruction-following capabilities and advancing the boundaries of code intelligence.

arxiv情報

著者 Zifan Song,Yudong Wang,Wenwei Zhang,Kuikun Liu,Chengqi Lyu,Demin Song,Qipeng Guo,Hang Yan,Dahua Lin,Kai Chen,Cairong Zhao
発行日 2024-05-29 16:57:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク