要約
大規模な言語モデル(LLMS)は、自動プログラム修理(APR)を含むさまざまなプログラミングタスクで有望なパフォーマンスを示しています。
ただし、LLMベースのAPRに対するほとんどのアプローチは、ランタイムの動作を無視しながら、プログラムの静的分析に限定されています。
この作業では、知識が熟成したNLPに触発されて、プログラム実行トレースで標準のAPRプロンプトを強化することにより、この潜在的な死角を改善することを目指しています。
3つの一般的なAPRデータセットでモデルのGPTファミリーを使用してアプローチを評価します。
私たちの調査結果は、単に実行トレースをプロンプトに組み込むことで、テストされた6つのデータセット /モデル構成のうち2つだけで、トレースフリーのベースラインよりもパフォーマンスの改善が限られていることを示唆しています。
さらに、APRの実行トレースの有効性は、それらの複雑さが増加するにつれて減少することがわかります。
プロンプトでトレースを活用するためのいくつかの戦略を探り、LLMが最適化されたプロンプトがトレースフリープロンプトをより一貫して上回るのに役立つことを実証します。
さらに、小規模なデータセットでより小さなLLMを微調整するよりも優れていることがトレースベースのプロンプトを示しています。
そして、実行トレースがLLMの推論能力を補完できるという概念を強化する調査研究を実施します。
要約(オリジナル)
Large Language Models (LLMs) show promising performance on various programming tasks, including Automatic Program Repair (APR). However, most approaches to LLM-based APR are limited to the static analysis of the programs, while disregarding their runtime behavior. Inspired by knowledge-augmented NLP, in this work, we aim to remedy this potential blind spot by augmenting standard APR prompts with program execution traces. We evaluate our approach using the GPT family of models on three popular APR datasets. Our findings suggest that simply incorporating execution traces into the prompt provides a limited performance improvement over trace-free baselines, in only 2 out of 6 tested dataset / model configurations. We further find that the effectiveness of execution traces for APR diminishes as their complexity increases. We explore several strategies for leveraging traces in prompts and demonstrate that LLM-optimized prompts help outperform trace-free prompts more consistently. Additionally, we show trace-based prompting to be superior to finetuning a smaller LLM on a small-scale dataset; and conduct probing studies reinforcing the notion that execution traces can complement the reasoning abilities of the LLMs.
arxiv情報
著者 | Mirazul Haque,Petr Babkin,Farima Farmahinifarahani,Manuela Veloso |
発行日 | 2025-05-07 14:12:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google