Revisiting File Context for Source Code Summarization

要約

ソース コードの要約は、ソース コードの自然言語記述を記述するタスクです。
典型的な使用例は、API ドキュメントで使用するサブルーチンの短い概要を生成することです。
コード要約に関する現在のほぼすべての研究の中心は、エンコーダ/デコーダのニューラル アーキテクチャであり、エンコーダの入力は、ほとんどの場合、単一のサブルーチンまたはその他の短いコード スニペットです。
この設定の問題は、コードを記述するために必要な情報がコード自体に存在しないことが多く、その情報は近くの他のコードに存在することが多いことです。
本稿では、コードを要約するための「ファイルコンテキスト」の考え方を再考します。
ファイルコンテキストは、同じファイル内の他のサブルーチンからの選択情報をエンコードするという概念です。
私たちは、ファイル コンテキストをエンコードすることを目的として構築された Transformer アーキテクチャの新しい修正を提案し、いくつかのベースラインに対する改善を実証します。
ファイル コンテキストは、従来のアプローチでは困難な困難な例のサブセットに役立つことがわかりました。

要約(オリジナル)

Source code summarization is the task of writing natural language descriptions of source code. A typical use case is generating short summaries of subroutines for use in API documentation. The heart of almost all current research into code summarization is the encoder-decoder neural architecture, and the encoder input is almost always a single subroutine or other short code snippet. The problem with this setup is that the information needed to describe the code is often not present in the code itself — that information often resides in other nearby code. In this paper, we revisit the idea of “file context” for code summarization. File context is the idea of encoding select information from other subroutines in the same file. We propose a novel modification of the Transformer architecture that is purpose-built to encode file context and demonstrate its improvement over several baselines. We find that file context helps on a subset of challenging examples where traditional approaches struggle.

arxiv情報

著者 Aakash Bansal,Chia-Yi Su,Collin McMillan
発行日 2023-09-05 15:44:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE パーマリンク