要約
コードの大規模な言語モデル(LLMS)によって最近達成されたにもかかわらず、それらの顕著な能力は、高品質のデータの微調整に大きく依存しており、データ収集と注釈の課題を提起しています。
これに対処するために、現在の方法は、さまざまなデータフライホイールを設計して複雑なコード命令を収集し、モデルがより複雑なタスクを処理できるようにすることがよくあります。
ただし、これらのアプローチは通常、限られた独自のLLMS(例えば、Claude、GPT4など)からの既製のデータセットとデータ増強に依存しており、構築されたデータの多様性を制限し、体系的なバイアスに陥りやすくなります。
。
この論文では、これらの制限に対処するために専門家の戦いから学ぶ小説のパラダイムであるWarriorCoderを提案します。
具体的には、主要な専門家コードLLMが互いに挑戦するアリーナを作成し、評価は公平な裁判官によって行われます。
この競争力のあるフレームワークは、すべての参加者の強みを活用して、ゼロから新しいトレーニングデータを生成します。
実験結果は、独自のLLMSに依存しなくても、同じサイズの以前のモデルと比較して、WarriorCoderが最先端のパフォーマンスを達成することを示しています。
要約(オリジナル)
Despite recent progress achieved by code large language models (LLMs), their remarkable abilities are largely dependent on fine-tuning on the high-quality data, posing challenges for data collection and annotation. To address this, current methods often design various data flywheels to collect complex code instructions, enabling models to handle more intricate tasks. However, these approaches typically rely on off-the-shelf datasets and data augmentation from a limited set of proprietary LLMs (e.g., Claude, GPT4, and so on), which restricts the diversity of the constructed data and makes it prone to systemic biases. In this paper, we propose WarriorCoder, a novel paradigm learns from expert battles to address these limitations. Specifically, we create an arena where leading expert code LLMs challenge each other, with evaluations conducted by impartial judges. This competitive framework generates novel training data from scratch, leveraging the strengths of all participants. Experimental results show that WarriorCoder achieves state-of-the-art performance compared to previous models of the same size, even without relying on proprietary LLMs.
arxiv情報
著者 | Huawen Feng,Pu Zhao,Qingfeng Sun,Can Xu,Fangkai Yang,Lu Wang,Qianli Ma,Qingwei Lin,Saravan Rajmohan,Dongmei Zhang,Qi Zhang |
発行日 | 2025-02-13 15:11:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google