The Impact of Input Order Bias on Large Language Models for Software Fault Localization

要約

大規模な言語モデル(LLM)は、障害ローカリゼーション(FL)や自動プログラム修理(APR)などのソフトウェアエンジニアリングタスクに大きな可能性を示しています。
この調査では、入力順序とコンテキストサイズがフロリダ州のLLMパフォーマンスにどのように影響するかを調査します。これは、多くのダウンストリームソフトウェアエンジニアリングタスクにとって重要なステップです。
JavaプロジェクトとPythonプロジェクトを含む2つのベンチマークにわたって、「完全」(グラウンドトゥルースが最初に現れる)や「最悪の」(グラウンドトゥルースが最後に表示される)を含むケンダルタウ距離を使用して、さまざまなメソッド順序を評価します。
私たちの結果は強い注文のバイアスを明らかにしています。Javaプロジェクトでは、注文を逆転させると、Top-1 FLの精度は57%から20%に低下しますが、Pythonプロジェクトでは、38%から約3%に減少します。
ただし、入力をより小さなコンテキストにセグメント化すると、このバイアスが緩和され、FLのパフォーマンスギャップが22%と6%から両方のベンチマークでわずか1%に減少します。
メソッド名を意味的に意味のある代替手段に置き換えて、このバイアスがデータの漏れによるものかどうかを判断しました。
観察された傾向は一貫したままであり、バイアスはトレーニングデータからの暗記ではなく、入力順序の固有の効果によって引き起こされることを示唆しています。
さらに、従来のFLテクニックとメトリックに基づいた順序付け方法を検討し、Depgraphのランキングが48%のTOP-1の精度を達成し、CallGraph(DFS)などのより単純なアプローチを上回ることができます。
これらの調査結果は、入力を構築し、コンテキストを効果的に管理し、FLおよびその他のソフトウェアエンジニアリングアプリケーションでのLLMパフォーマンスを強化するための適切な順序付け戦略を選択することの重要性を強調しています。

要約(オリジナル)

Large Language Models (LLMs) have shown significant potential in software engineering tasks such as Fault Localization (FL) and Automatic Program Repair (APR). This study investigates how input order and context size influence LLM performance in FL, a crucial step for many downstream software engineering tasks. We evaluate different method orderings using Kendall Tau distances, including ‘perfect’ (where ground truths appear first) and ‘worst’ (where ground truths appear last), across two benchmarks containing Java and Python projects. Our results reveal a strong order bias: in Java projects, Top-1 FL accuracy drops from 57% to 20% when reversing the order, while in Python projects, it decreases from 38% to approximately 3%. However, segmenting inputs into smaller contexts mitigates this bias, reducing the performance gap in FL from 22% and 6% to just 1% across both benchmarks. We replaced method names with semantically meaningful alternatives to determine whether this bias is due to data leakage. The observed trends remained consistent, suggesting that the bias is not caused by memorization from training data but rather by the inherent effect of input order. Additionally, we explored ordering methods based on traditional FL techniques and metrics, finding that DepGraph’s ranking achieves 48% Top-1 accuracy, outperforming simpler approaches such as CallGraph(DFS). These findings highlight the importance of structuring inputs, managing context effectively, and selecting appropriate ordering strategies to enhance LLM performance in FL and other software engineering applications.

arxiv情報

著者 Md Nakhla Rafi,Dong Jae Kim,Tse-Hsun Chen,Shaowei Wang
発行日 2025-03-19 16:08:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SE パーマリンク