A Novel Contrastive Learning Method for Clickbait Detection on RoCliCo: A Romanian Clickbait Corpus of News Articles

要約

収益を増やすために、ニュース Web サイトは多くの場合、ユーザーを欺いてタイトルをクリックしてニュース全文を読むように誘導する、欺瞞的なニュース タイトルを使用します。
クリックベイト検出は、この形式の虚偽広告を自動的に検出し、オンライン ユーザーの貴重な時間を無駄にしないようにすることを目的としたタスクです。
このタスクの重要性にもかかわらず、私たちの知る限り、ルーマニア語の一般に公開されているクリックベイト コーパスは存在しません。
この目的を達成するために、クリックベイトおよび非クリックベイトのラベルが手動で注釈付けされた 8,313 のニュース サンプルで構成される新しいルーマニア クリックベイト コーパス (RoCliCo) を導入します。
さらに、手作りのモデルからリカレントおよびトランスフォーマーベースのニューラル ネットワークに至るまで、4 つの機械学習手法を使用して実験を実施し、競争力のあるベースラインのラインナップを確立します。
また、重み付き投票アンサンブルを使用した実験も実行します。
検討されたベースラインの中で、我々は、非クリックベイト ニュースのタイトルとコンテンツが高いコサイン類似性を持ち、クリックベイト ニュースのタイトルとコンテンツが高いメトリック空間にニュース タイトルとコンテンツをエンコードすることを学習する新しい BERT ベースの対比学習モデルを提案します。
コサイン類似度が低い。
ベースラインを再現するためのデータセットとコードは、https://github.com/dariabroscoteanu/RoCliCo からダウンロードできるように公開されています。

要約(オリジナル)

To increase revenue, news websites often resort to using deceptive news titles, luring users into clicking on the title and reading the full news. Clickbait detection is the task that aims to automatically detect this form of false advertisement and avoid wasting the precious time of online users. Despite the importance of the task, to the best of our knowledge, there is no publicly available clickbait corpus for the Romanian language. To this end, we introduce a novel Romanian Clickbait Corpus (RoCliCo) comprising 8,313 news samples which are manually annotated with clickbait and non-clickbait labels. Furthermore, we conduct experiments with four machine learning methods, ranging from handcrafted models to recurrent and transformer-based neural networks, to establish a line-up of competitive baselines. We also carry out experiments with a weighted voting ensemble. Among the considered baselines, we propose a novel BERT-based contrastive learning model that learns to encode news titles and contents into a deep metric space such that titles and contents of non-clickbait news have high cosine similarity, while titles and contents of clickbait news have low cosine similarity. Our data set and code to reproduce the baselines are publicly available for download at https://github.com/dariabroscoteanu/RoCliCo.

arxiv情報

著者 Daria-Mihaela Broscoteanu,Radu Tudor Ionescu
発行日 2023-10-10 11:38:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク