Data Augmentation for Conflict and Duplicate Detection in Software Engineering Sentence Pairs

要約

この論文では、文ペアの分類を通じてソフトウェア エンジニアリング タスクにおける競合と重複の検出を強化するためのテキスト データ拡張技術の使用について検討します。
この研究では、シャッフル、逆翻訳、言い換えなどの一般的な拡張手法を採用し、ソフトウェア要件テキストの名詞-動詞置換、ターゲット-見出し語置換、アクター-アクション置換などの新しいデータ拡張手法を提案しています。
6 つのソフトウェア テキスト データセットに対して包括的な実証分析が実行され、文ペア間の矛盾や重複が特定されます。
この結果は、データ拡張技術がすべてのソフトウェア ペア テキスト データセットのパフォーマンスに大きな影響を与えることを示しています。
一方、データセットが比較的バランスが取れている場合、拡張技術の使用は分類パフォーマンスに悪影響を与える可能性があります。

要約(オリジナル)

This paper explores the use of text data augmentation techniques to enhance conflict and duplicate detection in software engineering tasks through sentence pair classification. The study adapts generic augmentation techniques such as shuffling, back translation, and paraphrasing and proposes new data augmentation techniques such as Noun-Verb Substitution, target-lemma replacement and Actor-Action Substitution for software requirement texts. A comprehensive empirical analysis is conducted on six software text datasets to identify conflicts and duplicates among sentence pairs. The results demonstrate that data augmentation techniques have a significant impact on the performance of all software pair text datasets. On the other hand, in cases where the datasets are relatively balanced, the use of augmentation techniques may result in a negative effect on the classification performance.

arxiv情報

著者 Garima Malik,Mucahit Cevik,Ayşe Başar
発行日 2023-05-16 17:00:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE パーマリンク