要約
最近、多様なデコードおよび再ランキング手順が LLM ベースのコード生成に効果的であることが示されました。
しかし、これらの方法を結び付けて実験的に比較する包括的なフレームワークが不足しています。
私たちは、候補生成、$n$-best 再ランキング、最小ベイズ リスク (MBR) デコーディング、および自己デバッグをコア コンポーネントとして含む包括的なフレームワークである、コード実行のデコーディング目標を提案することでこれに対処します。
次に、実行ベースの評価指標を通じてこれらのコンポーネントの貢献を調査します。
私たちの調査結果は、実行ベースの手法の重要性と、実行ベースの手法と実行を伴わない手法の違いを浮き彫りにしています。
さらに、試行的な単体テストに基づいてフィルタリングの影響を評価します。これは、これまでの研究では見落とされがちであったシンプルで効果的な戦略です。
また、複数の候補に対するセルフデバッグを提案し、コード生成のための再ランキングで最先端のパフォーマンスを取得します。
私たちは、私たちのフレームワークがコード生成に関する将来の研究に確固たるガイドラインを提供することを期待しています。
要約(オリジナル)
Recently, a diverse set of decoding and reranking procedures have been shown effective for LLM-based code generation. However, a comprehensive framework that links and experimentally compares these methods is missing. We address this by proposing Decoding Objectives for Code Execution, a comprehensive framework that includes candidate generation, $n$-best reranking, minimum Bayes risk (MBR) decoding, and self-debugging as the core components. We then study the contributions of these components through execution-based evaluation metrics. Our findings highlight the importance of execution-based methods and the difference gap between execution-based and execution-free methods. Furthermore, we assess the impact of filtering based on trial unit tests, a simple and effective strategy that has been often overlooked in prior works. We also propose self-debugging on multiple candidates, obtaining state-of-the-art performance on reranking for code generation. We expect our framework to provide a solid guideline for future research on code generation.
arxiv情報
著者 | Haau-Sing Li,Patrick Fernandes,Iryna Gurevych,André F. T. Martins |
発行日 | 2024-10-16 15:07:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google