要約
タイトル:BERTベースの単語埋め込み、AttentionベースのLSTM、および改良された差分進化アルゴリズムを組み合わせた新しい剽窃検出手法
要約:
– 論文は、異なるソース間で類似した項目を見つけることを目的とした剽窃検出の新しい方法を提案している。
– 提案手法はAttention機構に基づくLSTMとBERT(Bidirectional Encoder Representations from Transformers)ワード埋め込みを組み合わせ、事前トレーニングに最適化された差分進化(DE)アルゴリズムおよびフォーカルロス関数を使用する。
– BERTは、ダウンストリームタスクに組み込まれ、タスク固有のBERTとして微調整されることができ、訓練されたBERTモデルはさまざまな言語特性を検出できる。
– 剽窃検出における主要な問題の1つは、不均衡な分類である。この問題を解決するために、フォーカルロスベースのトレーニング技術を提唱している。
– また、トレーニングフェーズ自体に取り組んでおり、従来の勾配ベースのバックプロパゲーションには初期化に対する感度などの欠点があるため、新しいDEアルゴリズムを提案している。
– 提案手法は、3つのベンチマークデータセット(MSRP、SNLI、およびSemEval2014)で評価され、従来の方法と人口ベースの方法と比較して良好な性能を発揮することが示されている。
要約(オリジナル)
Detecting plagiarism involves finding similar items in two different sources. In this article, we propose a novel method for detecting plagiarism that is based on attention mechanism-based long short-term memory (LSTM) and bidirectional encoder representations from transformers (BERT) word embedding, enhanced with optimized differential evolution (DE) method for pre-training and a focal loss function for training. BERT could be included in a downstream task and fine-tuned as a task-specific BERT can be included in a downstream task and fine-tuned as a task-specific structure, while the trained BERT model is capable of detecting various linguistic characteristics. Unbalanced classification is one of the primary issues with plagiarism detection. We suggest a focal loss-based training technique that carefully learns minority class instances to solve this. Another issue that we tackle is the training phase itself, which typically employs gradient-based methods like back-propagation for the learning process and thus suffers from some drawbacks, including sensitivity to initialization. To initiate the BP process, we suggest a novel DE algorithm that makes use of a clustering-based mutation operator. Here, a winning cluster is identified for the current DE population, and a fresh updating method is used to produce potential answers. We evaluate our proposed approach on three benchmark datasets ( MSRP, SNLI, and SemEval2014) and demonstrate that it performs well when compared to both conventional and population-based methods.
arxiv情報
| 著者 | Seyed Vahid Moravvej,Seyed Jalaleddin Mousavirad,Diego Oliva,Fardin Mohammadi |
| 発行日 | 2023-05-03 18:26:47+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI