Stop Words for Processing Software Engineering Documents: Do they Matter?

要約

ストップワードは予測不可能であると考えられており、自然言語処理タスクでは削除されることがよくあります。
ただし、有益でない語彙の定義は曖昧であるため、ほとんどのアルゴリズムは一般知識に基づくストップ リストを使用してストップ ワードを削除します。
特にドメイン固有の設定におけるストップワードの削除の有用性について、学者の間で議論が続いています。
この研究では、ソフトウェアエンジニアリングの文脈におけるストップワード除去の有用性を調査します。
これを行うために、関連する作業から得た 3 つのソフトウェア エンジニアリング研究ツールを複製して実験します。
さらに、10,000 件のスタック オーバーフローの質問からソフトウェア エンジニアリング ドメイン関連テキストのコーパスを構築し、従来の情報理論的手法を使用して 200 件のドメイン固有のストップ ワードを特定します。
私たちの結果は、ドメイン固有のストップ ワードを使用すると、一般的なストップ リストを使用した場合と比較して調査ツールのパフォーマンスが大幅に向上し、19 の評価尺度のうち 17 でパフォーマンスが向上したことを示しています。
オンライン付録: https://zenodo.org/record/7865748

要約(オリジナル)

Stop words, which are considered non-predictive, are often eliminated in natural language processing tasks. However, the definition of uninformative vocabulary is vague, so most algorithms use general knowledge-based stop lists to remove stop words. There is an ongoing debate among academics about the usefulness of stop word elimination, especially in domain-specific settings. In this work, we investigate the usefulness of stop word removal in a software engineering context. To do this, we replicate and experiment with three software engineering research tools from related work. Additionally, we construct a corpus of software engineering domain-related text from 10,000 Stack Overflow questions and identify 200 domain-specific stop words using traditional information-theoretic methods. Our results show that the use of domain-specific stop words significantly improved the performance of research tools compared to the use of a general stop list and that 17 out of 19 evaluation measures showed better performance. Online appendix: https://zenodo.org/record/7865748

arxiv情報

著者 Yaohou Fan,Chetan Arora,Christoph Treude
発行日 2023-06-12 12:36:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE パーマリンク