Text Similarity from Image Contents using Statistical and Semantic Analysis Techniques

要約

盗作の検出は、自然言語処理 (NLP) コミュニティの中で最も研究されている分野の 1 つです。
優れた盗作検出は、セマンティクス、名前付きエンティティ、言い換えなどを含むすべての NLP 手法をカバーし、詳細な盗作レポートを作成します。
言語間の剽窃を検出するには、効果的なテキスト類似性チェックを実行するためのさまざまな高度な方法とアルゴリズムに関する深い知識が必要です。
最近では、盗作者も、そのような犯罪に巻き込まれないように、身元を隠さないようにしています。
盗作者は、言い換え、同義語の置き換え、引用の不一致、ある言語から別の言語への翻訳などの技術によって検出を回避されます。
画像コンテンツ盗用検出 (ICPD) の重要性が高まっており、高度な画像コンテンツ処理を利用して盗作の事例を特定し、画像コンテンツの完全性を確保します。
盗作の問題はテキスト コンテンツにとどまらず、図、グラフ、表などの画像も盗用される可能性があります。
しかし、画像コンテンツの盗用検出は依然として未解決の課題です。
したがって、画像コンテンツの盗作を検出するための方法とシステムを開発することが非常に必要です。
この論文では、図、グラフ、表などの画像コンテンツからの盗用を検出するシステムが実装されています。Jaccard や Cosine などの統計アルゴリズムに加え、LSA、BERT、WordNet などのセマンティック アルゴリズムを導入することで、効率的な盗用の検出に優れています。
正確な盗作。

要約(オリジナル)

Plagiarism detection is one of the most researched areas among the Natural Language Processing(NLP) community. A good plagiarism detection covers all the NLP methods including semantics, named entities, paraphrases etc. and produces detailed plagiarism reports. Detection of Cross Lingual Plagiarism requires deep knowledge of various advanced methods and algorithms to perform effective text similarity checking. Nowadays the plagiarists are also advancing themselves from hiding the identity from being catch in such offense. The plagiarists are bypassed from being detected with techniques like paraphrasing, synonym replacement, mismatching citations, translating one language to another. Image Content Plagiarism Detection (ICPD) has gained importance, utilizing advanced image content processing to identify instances of plagiarism to ensure the integrity of image content. The issue of plagiarism extends beyond textual content, as images such as figures, graphs, and tables also have the potential to be plagiarized. However, image content plagiarism detection remains an unaddressed challenge. Therefore, there is a critical need to develop methods and systems for detecting plagiarism in image content. In this paper, the system has been implemented to detect plagiarism form contents of Images such as Figures, Graphs, Tables etc. Along with statistical algorithms such as Jaccard and Cosine, introducing semantic algorithms such as LSA, BERT, WordNet outperformed in detecting efficient and accurate plagiarism.

arxiv情報

著者 Sagar Kulkarni,Sharvari Govilkar,Dhiraj Amin
発行日 2023-08-24 15:06:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク