Bengali Fake Reviews: A Benchmark Dataset and Detection System

要約

様々なオンライン・プラットフォームにおける偽のレビューの急増は、消費者と企業の双方にとって大きな懸念材料となっている。このようなレビューは顧客を欺き、製品やサービスの評判に損害を与える可能性があるため、偽レビューを特定することは非常に重要である。偽レビューの検出は英語では広く研究されているが、ベンガル語のような非英語圏の偽レビューの検出はまだ比較的未開拓の研究分野である。本論文では、ベンガル語の偽レビューを検出するための初の公開データセットである、ベンガル語偽レビュー検出(Bengali Fake Review Detection: BFRD)データセットを紹介する。このデータセットは、ソーシャルメディアの投稿から収集された7710件の偽でないレビューと1339件の偽の食品関連レビューから構成される。レビュー中のベンガル語以外の単語を変換するために、英単語を対応するベンガル語の意味に翻訳し、ローマ字化されたベンガル語をベンガル語に逆変換する独自のパイプラインが提案されている。信頼性の高い検出システムを開発するために、複数のディープラーニングと事前に訓練された変換言語モデルを用いて厳密な実験を行った。最後に、4つの事前学習済み変換器を組み合わせた重み付けアンサンブルモデルを提案する:BanglaBERT, BanglaBERT Base, BanglaBERT Large, BanglaBERT Generator 。実験結果によると、提案したアンサンブルモデルは、1339の実際の偽レビューとnlpaugライブラリで生成された5356の拡張偽レビューを含む、13390のレビューに対して0.9843の重み付けF1スコアを得た。残りの6695件のレビューは、7710件の偽でないインスタンスからランダムに選択された。偽のレビューがbnaugライブラリを用いて増強された場合、モデルは0.9558の重み付けF1スコアを達成した。

要約(オリジナル)

The proliferation of fake reviews on various online platforms has created a major concern for both consumers and businesses. Such reviews can deceive customers and cause damage to the reputation of products or services, making it crucial to identify them. Although the detection of fake reviews has been extensively studied in English language, detecting fake reviews in non-English languages such as Bengali is still a relatively unexplored research area. This paper introduces the Bengali Fake Review Detection (BFRD) dataset, the first publicly available dataset for identifying fake reviews in Bengali. The dataset consists of 7710 non-fake and 1339 fake food-related reviews collected from social media posts. To convert non-Bengali words in a review, a unique pipeline has been proposed that translates English words to their corresponding Bengali meaning and also back transliterates Romanized Bengali to Bengali. We have conducted rigorous experimentation using multiple deep learning and pre-trained transformer language models to develop a reliable detection system. Finally, we propose a weighted ensemble model that combines four pre-trained transformers: BanglaBERT, BanglaBERT Base, BanglaBERT Large, and BanglaBERT Generator . According to the experiment results, the proposed ensemble model obtained a weighted F1-score of 0.9843 on 13390 reviews, including 1339 actual fake reviews and 5356 augmented fake reviews generated with the nlpaug library. The remaining 6695 reviews were randomly selected from the 7710 non-fake instances. The model achieved a 0.9558 weighted F1-score when the fake reviews were augmented using the bnaug library.

arxiv情報

著者 G. M. Shahariar,Md. Tanvir Rouf Shawon,Faisal Muhammad Shah,Mohammad Shafiul Alam,Md. Shahriar Mahbub
発行日 2023-12-04 17:54:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク