要約
タイトル:クロスリンガルな盗作検出のシンプルで効果的な方法
要約:
– 大量の言語に適用可能なシンプルなクロスリンガルな盗作検出方法を提案している。
– この方法は、候補のリトリーバル課題にオープンマルチリンガルシソーラスを利用し、詳細な分析には事前に学習したマルチリンガルBERTベースの言語モデルを利用する。
– この方法は、機械翻訳や単語の意味の曖昧さ解消に依存しないため、未整備の言語を含む多数の言語に適している。
– この提案手法の有効性は、フランス語、ロシア語、アルメニア語の状態に関する最新の結果を残し、既存のベンチマークと新しいベンチマークに対して立証されている。
要約(オリジナル)
We present a simple cross-lingual plagiarism detection method applicable to a large number of languages. The presented approach leverages open multilingual thesauri for candidate retrieval task and pre-trained multilingual BERT-based language models for detailed analysis. The method does not rely on machine translation and word sense disambiguation when in use, and therefore is suitable for a large number of languages, including under-resourced languages. The effectiveness of the proposed approach is demonstrated for several existing and new benchmarks, achieving state-of-the-art results for French, Russian, and Armenian languages.
arxiv情報
著者 | Karen Avetisyan,Arthur Malajyan,Tsolak Ghukasyan,Arutyun Avetisyan |
発行日 | 2023-04-05 09:23:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI