BanglaBait: Semi-Supervised Adversarial Approach for Clickbait Detection on Bangla Clickbait Dataset


バングラ語のクリックベイト タイトルに取り組むために、クリックベイトの密集したニュース サイトから抽出された 15,056 件のラベル付きニュース記事と 65,406 件のラベルなしニュース記事を含む初のバングラ語クリックベイト検出データセットを構築しました。
各記事には 3 人の専門言語学者によってラベルが付けられており、記事のタイトル、本文、その他のメタデータが含まれています。
ラベル付きデータとラベルなしデータを組み込むことで、半教師あり敵対的生成ネットワーク (SS GAN) を使用して、事前トレーニング済みのバングラ変換モデルを敵対的な方法で微調整します。
提案されたモデルは、このデータセットの優れたベースラインとして機能し、従来のニューラル ネットワーク モデル (LSTM、GRU、CNN) や言語特徴ベースのモデルを上回ります。
私たちは、このデータセットとこれらのクリックベイト検出モデルの詳細な分析と比較が、ベンガル語記事のクリックベイト タイトルを検出するための将来の研究に基本的な基盤を提供すると期待しています。


Intentionally luring readers to click on a particular content by exploiting their curiosity defines a title as clickbait. Although several studies focused on detecting clickbait titles in English articles, low resource language like Bangla has not been given adequate attention. To tackle clickbait titles in Bangla, we have constructed the first Bangla clickbait detection dataset containing 15,056 labeled news articles and 65,406 unlabelled news articles extracted from clickbait dense news sites. Each article has been labeled by three expert linguists and includes an article’s title, body, and other metadata. By incorporating labeled and unlabelled data, we finetune a pretrained Bangla transformer model in an adversarial fashion using Semi Supervised Generative Adversarial Networks (SS GANs). The proposed model acts as a good baseline for this dataset, outperforming traditional neural network models (LSTM, GRU, CNN) and linguistic feature based models. We expect that this dataset and the detailed analysis and comparison of these clickbait detection models will provide a fundamental basis for future research into detecting clickbait titles in Bengali articles. We have released the corresponding code and dataset.


著者 Md. Motahar Mahtab,Monirul Haque,Mehedi Hasan,Farig Sadeque
発行日 2023-11-10 17:38:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク