Enhancing Plagiarism Detection in Marathi with a Weighted Ensemble of TF-IDF and BERT Embeddings for Low-Resource Language Processing

要約

盗作には、適切な帰属を明示せずに他人の作品やコンセプトを使用し、それらをオリジナルの創作物として提示することが含まれます。
インドの地域言語の 1 つであるマラーティー語などの地域言語でやり取りされるデータの量が増加しているため、リソースの少ない言語に合わせた堅牢な盗作検出システムを設計することが重要です。
Bidirectional Encoder Representations from Transformers (BERT) のような言語モデルは、テキスト表現と特徴抽出において優れた機能を実証しており、セマンティック分析と盗作検出に不可欠なツールとなっています。
ただし、低リソース言語への BERT の適用は、特に盗作検出の観点で、依然として研究が進んでいません。
この論文では、用語頻度 – 逆文書頻度 (TF-IDF) 特徴表現と組み合わせて BERT 文埋め込みを使用して、マラーティー語テキストの盗作検出の精度を高める方法を紹介します。
このアプローチは、機械学習モデルの重み付き投票アンサンブルを通じて、テキスト特徴の統計的、意味論的、および構文的な側面を効果的に捕捉します。

要約(オリジナル)

Plagiarism involves using another person’s work or concepts without proper attribution, presenting them as original creations. With the growing amount of data communicated in regional languages such as Marathi — one of India’s regional languages — it is crucial to design robust plagiarism detection systems tailored for low-resource languages. Language models like Bidirectional Encoder Representations from Transformers (BERT) have demonstrated exceptional capability in text representation and feature extraction, making them essential tools for semantic analysis and plagiarism detection. However, the application of BERT for low-resource languages remains under-explored, particularly in the context of plagiarism detection. This paper presents a method to enhance the accuracy of plagiarism detection for Marathi texts using BERT sentence embeddings in conjunction with Term Frequency-Inverse Document Frequency (TF-IDF) feature representation. This approach effectively captures statistical, semantic, and syntactic aspects of text features through a weighted voting ensemble of machine learning models.

arxiv情報

著者 Atharva Mutsaddi,Aditya Choudhary
発行日 2025-01-09 14:14:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, H.3.3 パーマリンク