Bengali Fake Review Detection using Semi-supervised Generative Adversarial Networks



– 半教師あり生成的敵対ネットワーク(GAN)を利用して、事前学習済みの言語モデルを微調整し、アノテーションされたわずかなデータを用いて、ベンガル語の偽レビューと本物のレビューを分類する可能性を調べた。
– ソーシャルメディアと電子商取引の増加に伴い、偽や欺瞞的なレビューを検出する能力は、消費者が偽情報に騙されないようにするためにますます重要になっている。
– ベンガル語のようなリソースが少ない言語の場合、偽レビューを識別することは、どの機械学習モデルでも難しい。提案された半教師ありGAN-LMアーキテクチャー(事前学習済み言語モデルの上に生成的敵対的ネットワークを置く)が、ベンガル語の偽レビューの分類に有用であることを実験結果から示した。
– 実験では、合計6014件の実際のレビューと偽のレビューからなる食レビューデータセットを用いて行われ、1024のアノテーションされたサンプルだけでも、SSGANを用いたBanglaBERTは、他の事前学習済み言語モデル、BanglaBERT generator、Bangla BERT Base、Bangla-Electraよりも、正解率では約3%、f1スコアでは約4%、約10%高い精度を達成した。
– ラベルされたデータの不足による偽レビューだけでなく他の分類問題にも苦労している研究者に、提案された方法が解決策になる可能性がある。


This paper investigates the potential of semi-supervised Generative Adversarial Networks (GANs) to fine-tune pretrained language models in order to classify Bengali fake reviews from real reviews with a few annotated data. With the rise of social media and e-commerce, the ability to detect fake or deceptive reviews is becoming increasingly important in order to protect consumers from being misled by false information. Any machine learning model will have trouble identifying a fake review, especially for a low resource language like Bengali. We have demonstrated that the proposed semi-supervised GAN-LM architecture (generative adversarial network on top of a pretrained language model) is a viable solution in classifying Bengali fake reviews as the experimental results suggest that even with only 1024 annotated samples, BanglaBERT with semi-supervised GAN (SSGAN) achieved an accuracy of 83.59% and a f1-score of 84.89% outperforming other pretrained language models – BanglaBERT generator, Bangla BERT Base and Bangla-Electra by almost 3%, 4% and 10% respectively in terms of accuracy. The experiments were conducted on a manually labeled food review dataset consisting of total 6014 real and fake reviews collected from various social media groups. Researchers that are experiencing difficulty recognizing not just fake reviews but other classification issues owing to a lack of labeled data may find a solution in our proposed methodology.


著者 Md. Tanvir Rouf Shawon,G. M. Shahariar,Faisal Muhammad Shah,Mohammad Shafiul Alam,Md. Shahriar Mahbub
発行日 2023-04-05 20:40:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク