An Empirical Investigation into the Use of Image Captioning for Automated Software Documentation

要約

ソフトウェアドキュメンテーションのための既存の自動化技術は、一般的にコードと自然言語という2つの主要な情報源の間で推論しようとするものである。しかし、この推論プロセスは、より抽象的な自然言語と、より構造化されたプログラミング言語との間の語彙的ギャップによって、しばしば複雑化される。このギャップを埋める可能性があるのがグラフィカルユーザーインターフェース(GUI)であり、GUIは本質的にプログラムの機能に関する重要な情報を豊富なピクセルベースのデータ表現に符号化するからである。本論文では、GUIと機能的な自然言語によるソフトウェア記述の関連性について、初めて包括的な実証的調査を行った。まず、人気のあるAndroidアプリケーションのスクリーンショット10,204枚に対する45,998件の機能的GUI記述の大規模データセットを収集、分析し、オープンソース化する。これらの記述は、人間のラベラーから取得され、いくつかの品質管理メカニズムが適用された。GUIの表現能力を理解するために、4つのNeural Image Captioningモデルがスクリーンショットを入力として与えられたときに、様々な粒度の自然言語記述を予測する能力を調査した。これらのモデルは、一般的な機械翻訳メトリックスを用いた定量的な評価と、大規模なユーザー調査による定性的な評価を行っている。最後に、得られた教訓と、マルチモーダルモデルがソフトウェアドキュメンテーションの自動化のための将来の技術を強化するために示す可能性について議論する。

要約(オリジナル)

Existing automated techniques for software documentation typically attempt to reason between two main sources of information: code and natural language. However, this reasoning process is often complicated by the lexical gap between more abstract natural language and more structured programming languages. One potential bridge for this gap is the Graphical User Interface (GUI), as GUIs inherently encode salient information about underlying program functionality into rich, pixel-based data representations. This paper offers one of the first comprehensive empirical investigations into the connection between GUIs and functional, natural language descriptions of software. First, we collect, analyze, and open source a large dataset of functional GUI descriptions consisting of 45,998 descriptions for 10,204 screenshots from popular Android applications. The descriptions were obtained from human labelers and underwent several quality control mechanisms. To gain insight into the representational potential of GUIs, we investigate the ability of four Neural Image Captioning models to predict natural language descriptions of varying granularity when provided a screenshot as input. We evaluate these models quantitatively, using common machine translation metrics, and qualitatively through a large-scale user study. Finally, we offer learned lessons and a discussion of the potential shown by multimodal models to enhance future techniques for automated software documentation.

arxiv情報

著者 Kevin Moran,Ali Yachnes,George Purnell,Junayed Mahmud,Michele Tufano,Carlos Bernal-Cárdenas,Denys Poshyvanyk,Zach H’Doubler
発行日 2023-01-03 17:15:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, cs.SE パーマリンク