Multilingual Models for Check-Worthy Social Media Posts Detection

要約

この研究では、検証可能な事実の主張や有害な主張を含むソーシャル メディア投稿を検出するためのトランスベースの NLP モデルに関する広範な研究を紹介します。
この調査には、データセットの収集、データセットの前処理、アーキテクチャの選択、設定のセットアップ、モデルのトレーニング (微調整)、モデルのテスト、実装などのさまざまなアクティビティが含まれます。
この調査には、さまざまなモデルの包括的な分析が含まれており、同じモデルで英語と、アラビア語、ブルガリア語、オランダ語、ポーランド語、チェコ語、スロバキア語などの低リソース言語の両方でソーシャル メディア投稿を処理できる多言語モデルに特に焦点を当てています。

研究から得られた結果は最先端のモデルに対して検証され、比較により提案されたモデルの堅牢性が実証されました。
この研究の新規性は、有害な投稿と検証可能な事実主張を含む投稿を効率的な方法で同時に検出できるマルチラベル多言語分類モデルの開発にあります。

要約(オリジナル)

This work presents an extensive study of transformer-based NLP models for detection of social media posts that contain verifiable factual claims and harmful claims. The study covers various activities, including dataset collection, dataset pre-processing, architecture selection, setup of settings, model training (fine-tuning), model testing, and implementation. The study includes a comprehensive analysis of different models, with a special focus on multilingual models where the same model is capable of processing social media posts in both English and in low-resource languages such as Arabic, Bulgarian, Dutch, Polish, Czech, Slovak. The results obtained from the study were validated against state-of-the-art models, and the comparison demonstrated the robustness of the proposed models. The novelty of this work lies in the development of multi-label multilingual classification models that can simultaneously detect harmful posts and posts that contain verifiable factual claims in an efficient way.

arxiv情報

著者 Sebastian Kula,Michal Gregor
発行日 2024-08-13 08:55:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク