Transfer learning for conflict and duplicate detection in software requirement pairs

要約

ソフトウェアプロジェクトを成功させるには、ソフトウェア要件を一貫して包括的に表現することが重要です。
本研究では、矛盾する重複するソフトウェア要求仕様を自動的に特定することで、ソフトウェア開発プロセスの効率を向上することを目的としています。
競合と重複の検出問題を要件ペア分類タスクとして定式化します。
我々は、競合および重複識別タスクのために Sentence-BERT と Bi-encoder を組み込んだ、新しいトランスフォーマーベースのアーキテクチャである SR-BERT を設計します。
さらに、教師あり多段階微調整を事前トレーニングされた変圧器モデルに適用します。
4 つの異なるデータセットを使用して、さまざまな転送モデルのパフォーマンスをテストします。
SR-BERT が大規模なデータセットで最高のパフォーマンスを達成することで、逐次的にトレーニングされ微調整された変換モデルがデータセット全体で良好なパフォーマンスを発揮することがわかりました。
また、競合検出モデルのクロスドメイン パフォーマンスを調査し、モデルの分類を検証するためにルールベースのフィルタリング アプローチを採用します。
私たちの分析は、文ペア分類アプローチと提案されているトランスフォーマーベースの自然言語処理戦略が、競合と重複検出の自動化の実現に大きく貢献できることを示しています。

要約(オリジナル)

Consistent and holistic expression of software requirements is important for the success of software projects. In this study, we aim to enhance the efficiency of the software development processes by automatically identifying conflicting and duplicate software requirement specifications. We formulate the conflict and duplicate detection problem as a requirement pair classification task. We design a novel transformers-based architecture, SR-BERT, which incorporates Sentence-BERT and Bi-encoders for the conflict and duplicate identification task. Furthermore, we apply supervised multi-stage fine-tuning to the pre-trained transformer models. We test the performance of different transfer models using four different datasets. We find that sequentially trained and fine-tuned transformer models perform well across the datasets with SR-BERT achieving the best performance for larger datasets. We also explore the cross-domain performance of conflict detection models and adopt a rule-based filtering approach to validate the model classifications. Our analysis indicates that the sentence pair classification approach and the proposed transformer-based natural language processing strategies can contribute significantly to achieving automation in conflict and duplicate detection

arxiv情報

著者 Garima Malik,Savas Yildirim,Mucahit Cevik,Ayse Bener,Devang Parikh
発行日 2024-07-30 16:31:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE パーマリンク