Do Large Language Models Pay Similar Attention Like Human Programmers When Generating Code?

要約

Large Language Model (LLM) は、最近コード生成に広く使用されています。
LLM は複雑で不透明であるため、これらのモデルがどのようにコードを生成するかについてはほとんどわかっていません。
私たちは、コード生成中に LLM が人間のプログラマーと同じタスク記述の部分に注意を払うかどうかを調査することで、この知識のギャップを埋める最初の試みを行いました。
GPT-4 を含む 6 つの LLM を 2 つの一般的なコード生成ベンチマークで分析したところ、LLM とプログラマーの注意の間に一貫したずれがあることが明らかになりました。
私たちは 211 個の間違ったコード スニペットを手動で分析し、多くのコード生成エラーを説明するために使用できる 5 つの注意パターンを発見しました。
最後に、ユーザー調査では、摂動ベースの方法で計算されたモデル アテンションが人間のプログラマーに好まれることが多いことが示されました。
私たちの調査結果は、より良い解釈可能性とプログラマーの信頼を得るために、人間に合わせた LLM の必要性を浮き彫りにしています。

要約(オリジナル)

Large Language Models (LLMs) have recently been widely used for code generation. Due to the complexity and opacity of LLMs, little is known about how these models generate code. We made the first attempt to bridge this knowledge gap by investigating whether LLMs attend to the same parts of a task description as human programmers during code generation. An analysis of six LLMs, including GPT-4, on two popular code generation benchmarks revealed a consistent misalignment between LLMs’ and programmers’ attention. We manually analyzed 211 incorrect code snippets and found five attention patterns that can be used to explain many code generation errors. Finally, a user study showed that model attention computed by a perturbation-based method is often favored by human programmers. Our findings highlight the need for human-aligned LLMs for better interpretability and programmer trust.

arxiv情報

著者 Bonan Kou,Shengmai Chen,Zhijie Wang,Lei Ma,Tianyi Zhang
発行日 2024-05-23 17:27:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.LG, cs.SE パーマリンク