Naturalness of Attention: Revisiting Attention in Code Language Models

要約

CodeBERT などのコードの言語モデルは、高度なソース コード表現を学習する機能を提供しますが、その不透明性がキャプチャされたプロパティの理解を妨げます。
最近のアテンション分析研究では、トランスフォーマーのより広範なコンテキスト モデリングを考慮するのではなく、アテンションの重みのみに焦点を当てることで、初期の解釈可能性に関する洞察が得られます。
この研究は、注意の重みを超えて、これまで無視されていた注意メカニズムの要因に光を当てることを目的としています。
私たちは、CodeBERT における注意分布と変換された表現の両方を分析する最初の実証研究を実施します。
Java と Python という 2 つのプログラミング言語にわたって、入力のスケーリングされた変換ノルムは、注意の重みだけと比較して、構文構造をよりよく捉えていることがわかりました。
私たちの分析により、CodeBERT が構文コード プロパティをどのように埋め込むかの特徴が明らかになりました。
この調査結果は、ニューラル コード モデルを厳密に理解するには、注意の重みだけでなく要素を組み込むことの重要性を示しています。
これにより、より解釈しやすいモデルを開発し、プログラム分析におけるアテンション メカニズムを効果的に使用するための基礎が築かれます。

要約(オリジナル)

Language models for code such as CodeBERT offer the capability to learn advanced source code representation, but their opacity poses barriers to understanding of captured properties. Recent attention analysis studies provide initial interpretability insights by focusing solely on attention weights rather than considering the wider context modeling of Transformers. This study aims to shed some light on the previously ignored factors of the attention mechanism beyond the attention weights. We conduct an initial empirical study analyzing both attention distributions and transformed representations in CodeBERT. Across two programming languages, Java and Python, we find that the scaled transformation norms of the input better capture syntactic structure compared to attention weights alone. Our analysis reveals characterization of how CodeBERT embeds syntactic code properties. The findings demonstrate the importance of incorporating factors beyond just attention weights for rigorously understanding neural code models. This lays the groundwork for developing more interpretable models and effective uses of attention mechanisms in program analysis.

arxiv情報

著者 Mootez Saad,Tushar Sharma
発行日 2023-11-22 16:34:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE パーマリンク