A Simple and Effective Method of Cross-Lingual Plagiarism Detection

要約

タイトル: 言語を越えた盗作検出のためのシンプルで効果的な方法
要約:
– 多数の言語に適用可能なシンプルな盗作検出方法を提案する。
– オープンな多言語シソーラスを使用して候補リトリーバルタスクを実行し、事前に学習した多言語BERTベースの言語モデルを使用して詳細な分析を行う。
– 機械翻訳や単語の意味の曖昧さ解消に頼らず、少なくともリソースの不足している言語を含む多数の言語に適している。
– 新しいベンチマークを含め、数多くの既存の言語に対して、提案手法の効果が実証され、フランス語、ロシア語、アルメニア語の言語に対しては、最高水準の結果が得られた。

要約(オリジナル)

We present a simple cross-lingual plagiarism detection method applicable to a large number of languages. The presented approach leverages open multilingual thesauri for candidate retrieval task and pre-trained multilingual BERT-based language models for detailed analysis. The method does not rely on machine translation and word sense disambiguation when in use, and therefore is suitable for a large number of languages, including under-resourced languages. The effectiveness of the proposed approach is demonstrated for several existing and new benchmarks, achieving state-of-the-art results for French, Russian, and Armenian languages.

arxiv情報

著者 Karen Avetisyan,Arthur Malajyan,Tsolak Ghukasyan
発行日 2023-04-03 20:27:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.IR パーマリンク