Code-Optimise: Self-Generated Preference Data for Correctness and Efficiency

要約

コード言語モデルは、通常、ランタイムを考慮せずに、正確なソリューションを生成するために訓練されています。
一方、実行最適化を調査した以前の作品では、機能的正しさの対応する低下が観察されています。
そのために、Code-Optimiseを紹介します。これは、自己生成の優先度データを介して学習信号として、正確性(合格、失敗)とランタイム(迅速、遅い)の両方を組み込んだフレームワークを紹介します。
私たちのフレームワークは、学習信号のより大きなモデルへの依存を避けながら、過剰適合を減らすソリューションを動的に選択するため、軽量で堅牢です。
Code-Optimiseは、Pass@Kの大幅な改善を達成しながら、競争力のあるベースラインランタイムをドメイン内データでさらに6%、ドメイン外データで最大3%減少させます。
副産物として、生成された溶液の平均長は、MBPPで最大48%、ヒューマン量で23%減少し、より速く、より安価な推論をもたらします。
生成されたデータとコードベースは、https://github.com/huawei-noah/hebo/tree/code_optimiseでオープンソースをかけています。

要約(オリジナル)

Code Language Models have been trained to generate accurate solutions, typically with no regard for runtime. On the other hand, previous works that explored execution optimisation have observed corresponding drops in functional correctness. To that end, we introduce Code-Optimise, a framework that incorporates both correctness (passed, failed) and runtime (quick, slow) as learning signals via self-generated preference data. Our framework is both lightweight and robust as it dynamically selects solutions to reduce overfitting while avoiding a reliance on larger models for learning signals. Code-Optimise achieves significant improvements in pass@k while decreasing the competitive baseline runtimes by an additional 6% for in-domain data and up to 3% for out-of-domain data. As a by-product, the average length of the generated solutions is reduced by up to 48% on MBPP and 23% on HumanEval, resulting in faster and cheaper inference. The generated data and codebase is open-sourced at https://github.com/huawei-noah/HEBO/tree/Code_Optimise.

arxiv情報

著者 Leonidas Gee,Milan Gritta,Gerasimos Lampouras,Ignacio Iacobacci
発行日 2025-02-05 12:29:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク