要約
コード LLM を最適化し、モデルの動作をユーザーの期待に合わせて調整し、実際のアプリケーションでのモデルのパフォーマンスを向上させるには、効果的な命令チューニングが不可欠です。
ただし、既存の方法のほとんどはコード スニペットに焦点を当てており、特定の機能と厳格な構造に限定されており、合成データの複雑さと多様性が制限されています。
これらの制限に対処するために、抽象構文ツリー (AST) からインスピレーションを得た新しい機能ツリーベースの合成フレームワークを導入します。
コードの構文構造をキャプチャする AST とは異なり、私たちのフレームワークはコード要素間の意味論的な関係をモデル化し、より微妙で多様なデータの生成を可能にします。
特徴ツリーは生データから構築され、抽出された特徴の量と多様性を高めるために繰り返し改良されます。
このプロセスにより、コード内のより複雑なパターンと関係を識別できるようになります。
制御された深さと幅でサブツリーをサンプリングすることにより、私たちのフレームワークは、生成されたコードの複雑さを正確に調整することを可能にし、単純な関数レベルの操作から複雑な複数ファイルのシナリオまで幅広いタスクをサポートします。
EpiCoder シリーズを作成するために広く使用されているベース モデルを微調整し、複数のベンチマークにわたって機能レベルとファイル レベルの両方で最先端のパフォーマンスを実現しました。
特に、経験的証拠は、私たちのアプローチが非常に複雑なリポジトリレベルのコードデータの合成において大きな可能性を示していることを示しています。
さらに分析を進めると、ソフトウェア エンジニアリングの原則と LLM-as-a-judge メソッドを通じてデータの複雑さと多様性を厳密に評価することで、このアプローチの利点が明らかになります。
要約(オリジナル)
Effective instruction tuning is indispensable for optimizing code LLMs, aligning model behavior with user expectations and enhancing model performance in real-world applications. However, most existing methods focus on code snippets, which are limited to specific functionalities and rigid structures, restricting the complexity and diversity of the synthesized data. To address these limitations, we introduce a novel feature tree-based synthesis framework inspired by Abstract Syntax Trees (AST). Unlike AST, which captures syntactic structure of code, our framework models semantic relationships between code elements, enabling the generation of more nuanced and diverse data. The feature tree is constructed from raw data and refined iteratively to increase the quantity and diversity of the extracted features. This process enables the identification of more complex patterns and relationships within the code. By sampling subtrees with controlled depth and breadth, our framework allows precise adjustments to the complexity of the generated code, supporting a wide range of tasks from simple function-level operations to intricate multi-file scenarios. We fine-tuned widely-used base models to create the EpiCoder series, achieving state-of-the-art performance at both the function and file levels across multiple benchmarks. Notably, empirical evidence indicates that our approach shows significant potential in synthesizing highly complex repository-level code data. Further analysis elucidates the merits of this approach by rigorously assessing data complexity and diversity through software engineering principles and LLM-as-a-judge method.
arxiv情報
著者 | Yaoxiang Wang,Haoling Li,Xin Zhang,Jie Wu,Xiao Liu,Wenxiang Hu,Zhongxin Guo,Yangyu Huang,Ying Xin,Yujiu Yang,Jinsong Su,Qi Chen,Scarlett Li |
発行日 | 2025-01-08 18:58:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google