Software Entity Recognition with Noise-Robust Learning

要約

自由形式のテキストからライブラリ名などのソフトウェア エンティティを認識することは、トレーサビリティ リンクの回復、自動ドキュメント、API 推奨など、多くのソフトウェア エンジニアリング (SE) テクノロジを有効にするために不可欠です。
この問題に対処するために多くのアプローチが提案されていますが、それらは小さなエンティティ語彙やノイズの多いトレーニング データに悩まされ、洗練された物語で言及されるソフトウェア エンティティを認識する能力を妨げます。
この課題に対処するために、ウィキペディアの分類法を活用して、12 のきめ細かいタイプの 79,000 個の固有のソフトウェア エンティティを含む包括的なエンティティ辞書と、170 万を超える文からなる大規模なラベル付きデータセットを開発しました。
次に、多くのドロップアウトを考慮してソフトウェア エンティティ認識 (SER) モデルのトレーニングに、ノイズに強い学習アプローチである自己正則化を提案します。
結果は、自己正則化を使用してトレーニングされたモデルが、Wikipedia ベンチマークと 2 つの Stack Overflow ベンチマークにおいて、標準的なモデルと最先端のアプローチの両方を上回るパフォーマンスを示していることを示しています。
将来の研究のためにモデル、データ、コードを公開します。

要約(オリジナル)

Recognizing software entities such as library names from free-form text is essential to enable many software engineering (SE) technologies, such as traceability link recovery, automated documentation, and API recommendation. While many approaches have been proposed to address this problem, they suffer from small entity vocabularies or noisy training data, hindering their ability to recognize software entities mentioned in sophisticated narratives. To address this challenge, we leverage the Wikipedia taxonomy to develop a comprehensive entity lexicon with 79K unique software entities in 12 fine-grained types, as well as a large labeled dataset of over 1.7M sentences. Then, we propose self-regularization, a noise-robust learning approach, to the training of our software entity recognition (SER) model by accounting for many dropouts. Results show that models trained with self-regularization outperform both their vanilla counterparts and state-of-the-art approaches on our Wikipedia benchmark and two Stack Overflow benchmarks. We release our models, data, and code for future research.

arxiv情報

著者 Tai Nguyen,Yifeng Di,Joohan Lee,Muhao Chen,Tianyi Zhang
発行日 2023-08-21 08:41:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE パーマリンク