Evaluating and Aligning CodeLLMs on Human Preference

要約

コード大規模言語モデル (codeLLM) は、コード生成において大幅な進歩を遂げました。
これまでのコード関連のベンチマークのほとんどは、さまざまなプログラミング演習と対応するテスト ケースで構成されており、コード LLM のパフォーマンスと機能を評価するための共通の尺度として使用されています。
ただし、現在のコード LLM は、人間の好みとの調整を無視して、正しいコード スニペットを合成することに重点を置いており、クエリは実際のアプリケーション シナリオからサンプリングされ、モデルによって生成された応答は人間の好みを満たす必要があります。
モデルが生成した応答と人間の好みとの間のギャップを埋めるために、現実世界のコーディング タスクの複雑さと多様性をエミュレートするために、人間が厳選した厳密なベンチマーク CodeArena を提示します。
ユーザーの質問から慎重に厳選されています。
さらに、Web サイトからの命令をスケーリングすることにより、多様な合成命令コーパス SynCode-Instruct (約 20B トークン) を提案し、Qwen2.5-SynCoder が合成命令データで完全にトレーニングされた大規模な合成命令微調整の有効性を検証します。
オープンソース コード LLM のトップレベルのパフォーマンスを達成できます。
結果から、実行ベースのベンチマークと CodeArena の間のパフォーマンスの違いがわかります。
40 以上の LLM に対する CodeArena の体系的な実験では、オープン SOTA コード LLM (例: Qwen2.5-Coder) と独自の LLM (例: OpenAI o1) の間に顕著なパフォーマンスのギャップがあることが明らかになり、人間の好みの調整の重要性が強調されています。\footnote{\
URL{https://codearenaeval.github.io/ }}

要約(オリジナル)

Code large language models (codeLLMs) have made significant strides in code generation. Most previous code-related benchmarks, which consist of various programming exercises along with the corresponding test cases, are used as a common measure to evaluate the performance and capabilities of code LLMs. However, the current code LLMs focus on synthesizing the correct code snippet, ignoring the alignment with human preferences, where the query should be sampled from the practical application scenarios and the model-generated responses should satisfy the human preference. To bridge the gap between the model-generated response and human preference, we present a rigorous human-curated benchmark CodeArena to emulate the complexity and diversity of real-world coding tasks, where 397 high-quality samples spanning 40 categories and 44 programming languages, carefully curated from user queries. Further, we propose a diverse synthetic instruction corpus SynCode-Instruct (nearly 20B tokens) by scaling instructions from the website to verify the effectiveness of the large-scale synthetic instruction fine-tuning, where Qwen2.5-SynCoder totally trained on synthetic instruction data can achieve top-tier performance of open-source code LLMs. The results find performance differences between execution-based benchmarks and CodeArena. Our systematic experiments of CodeArena on 40+ LLMs reveal a notable performance gap between open SOTA code LLMs (e.g. Qwen2.5-Coder) and proprietary LLMs (e.g., OpenAI o1), underscoring the importance of the human preference alignment.\footnote{\url{https://codearenaeval.github.io/ }}

arxiv情報

著者 Jian Yang,Jiaxi Yang,Ke Jin,Yibo Miao,Lei Zhang,Liqun Yang,Zeyu Cui,Yichang Zhang,Binyuan Hui,Junyang Lin
発行日 2024-12-06 17:40:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク