要約
タイトル: 言語を越えた盗作検出のためのシンプルで効果的な方法
要約:
– 多数の言語に適用可能なシンプルな盗作検出方法を提案する。
– オープンな多言語シソーラスを使用して候補リトリーバルタスクを実行し、事前に学習した多言語BERTベースの言語モデルを使用して詳細な分析を行う。
– 機械翻訳や単語の意味の曖昧さ解消に頼らず、少なくともリソースの不足している言語を含む多数の言語に適している。
– 新しいベンチマークを含め、数多くの既存の言語に対して、提案手法の効果が実証され、フランス語、ロシア語、アルメニア語の言語に対しては、最高水準の結果が得られた。
要約(オリジナル)
We present a simple cross-lingual plagiarism detection method applicable to a large number of languages. The presented approach leverages open multilingual thesauri for candidate retrieval task and pre-trained multilingual BERT-based language models for detailed analysis. The method does not rely on machine translation and word sense disambiguation when in use, and therefore is suitable for a large number of languages, including under-resourced languages. The effectiveness of the proposed approach is demonstrated for several existing and new benchmarks, achieving state-of-the-art results for French, Russian, and Armenian languages.
arxiv情報
著者 | Karen Avetisyan,Arthur Malajyan,Tsolak Ghukasyan |
発行日 | 2023-04-03 20:27:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI