Follow-up Attention: An Empirical Study of Developer and Neural Model Code Exploration

要約

OpenAI Codex や AlphaCode などの最近のコードのニューラル モデルは、基礎となるアテンション メカニズムにより、コード生成において顕著な熟練度を示しています。
ただし、モデルが実際にコードをどのように処理するか、モデルの推論や注意メカニズムがコードをスキャンする方法が開発者のパターンとどの程度一致するかは不明なままであることがよくあります。
モデル推論プロセスの理解が不十分であるため、現在のニューラル モデルの活用方法が制限されており、これまでのところ、主に生の予測に使用されています。
このギャップを埋めるために、この研究では、CodeGen、InCoder、GPT-J という 3 つのオープンな大規模言語モデルの処理された注意信号が、コードに関する同じ意味のある質問にそれぞれが答えるときに、開発者がコードを見て探索する方法とどのように一致するかを研究しています。
さらに、センスメイキングのタスクに従事する 25 人の開発者による、手動でラベル付けされた 92 のセッションで構成されるオープンソースの視線追跡データセットを提供します。
私たちは、CodeGen のアテンション信号のアテンションを使用しない 5 つのヒューリスティックと 10 のアテンションベースの後処理アプローチを、コードを探索する開発者のグラウンド トゥルースと照らし合わせて経験的に評価します。
モデルと人間の注意。
私たちのフォローアップ アテンション メソッドは、開発者が次に注目する行を 47% の精度で予測できます。
これは、他の開発者のセッション履歴を使用して次の行を推奨するベースライン予測精度 42.3% を上回ります。
これらの結果は、効果的なコード探索のために事前トレーニングされたモデルの注意シグナルを活用できる可能性を示しています。

要約(オリジナル)

Recent neural models of code, such as OpenAI Codex and AlphaCode, have demonstrated remarkable proficiency at code generation due to the underlying attention mechanism. However, it often remains unclear how the models actually process code, and to what extent their reasoning and the way their attention mechanism scans the code matches the patterns of developers. A poor understanding of the model reasoning process limits the way in which current neural models are leveraged today, so far mostly for their raw prediction. To fill this gap, this work studies how the processed attention signal of three open large language models – CodeGen, InCoder and GPT-J – agrees with how developers look at and explore code when each answers the same sensemaking questions about code. Furthermore, we contribute an open-source eye-tracking dataset comprising 92 manually-labeled sessions from 25 developers engaged in sensemaking tasks. We empirically evaluate five heuristics that do not use the attention and ten attention-based post-processing approaches of the attention signal of CodeGen against our ground truth of developers exploring code, including the novel concept of follow-up attention which exhibits the highest agreement between model and human attention. Our follow-up attention method can predict the next line a developer will look at with 47% accuracy. This outperforms the baseline prediction accuracy of 42.3%, which uses the session history of other developers to recommend the next line. These results demonstrate the potential of leveraging the attention signal of pre-trained models for effective code exploration.

arxiv情報

著者 Matteo Paltenghi,Rahul Pandita,Austin Z. Henley,Albert Ziegler
発行日 2024-08-29 14:36:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.LG, cs.SE パーマリンク