What Makes Large Language Models Reason in (Multi-Turn) Code Generation?

要約

思考連鎖などの即効性のある手法は、大規模言語モデル (LLM) の出力を向上させるための一般的な手段としての地位を確立しています。
ただし、コード生成については、その正確な仕組みと有効性は十分に調査されていません。
したがって、複数のターンにわたる自動再プロンプトと計算要件に焦点を当てて、幅広いプロンプト戦略の効果を調査します。
推論、指示、および実行のフィードバック プロンプトを体系的に分解した後、複数の LLM ファミリとサイズ (Llama 3.0 および 3.1、8B、70B、405B、および GPT-4o) に対して、競技プログラミング ベンチマーク CodeContests および TACO で広範なグリッド検索を実行します。
私たちの調査により、サンプリング予算が大小を問わず、すべてのモデルのパフォーマンスを一貫して向上させる戦略が明らかになりました。
次に、このような最適な構成で微調整することで、モデルがどのように誘導推論プロセスを内部化し、マルチターン コード生成のパフォーマンスとスケーラビリティを向上させることができるかを示します。

要約(オリジナル)

Prompting techniques such as chain-of-thought have established themselves as a popular vehicle for improving the outputs of large language models (LLMs). For code generation, however, their exact mechanics and efficacy are under-explored. We thus investigate the effects of a wide range of prompting strategies with a focus on automatic re-prompting over multiple turns and computational requirements. After systematically decomposing reasoning, instruction, and execution feedback prompts, we conduct an extensive grid search on the competitive programming benchmarks CodeContests and TACO for multiple LLM families and sizes (Llama 3.0 and 3.1, 8B, 70B, 405B, and GPT-4o). Our study reveals strategies that consistently improve performance across all models with small and large sampling budgets. We then show how finetuning with such an optimal configuration allows models to internalize the induced reasoning process and obtain improvements in performance and scalability for multi-turn code generation.

arxiv情報

著者 Kunhao Zheng,Juliette Decugis,Jonas Gehring,Taco Cohen,Benjamin Negrevergne,Gabriel Synnaeve
発行日 2024-10-10 16:53:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク