Gpachov at CheckThat! 2023: A Diverse Multi-Approach Ensemble for Subjectivity Detection in News Articles


ソーシャル ネットワークの普及により、主観的で誤解を招く、さらには誤った情報がインターネット上に生み出されています。
この文書では、CLEF-2023 CheckThat! 用に Gpachov チームによって構築されたソリューションを紹介します。
主観性の検出に関するラボ タスク ~ 2。
3 つの異なる研究方向が検討されます。
1 つ目は、文埋め込みエンコーダー モデルの微調整と次元削減に基づいています。
2 つ目では、サンプル効率の良い少数ショット学習モデルを検討します。
3 つ目は、複数の言語のデータを使用して、変更されたデータセットに対する多言語トランスフォーマーの微調整を評価します。
最後に、3 つのアプローチを単純な多数決アンサンブルで組み合わせた結果、テスト セットでマクロ F1 が 0.77 となり、英語のサブタスクで 2 位を獲得しました。


The wide-spread use of social networks has given rise to subjective, misleading, and even false information on the Internet. Thus, subjectivity detection can play an important role in ensuring the objectiveness and the quality of a piece of information. This paper presents the solution built by the Gpachov team for the CLEF-2023 CheckThat! lab Task~2 on subjectivity detection. Three different research directions are explored. The first one is based on fine-tuning a sentence embeddings encoder model and dimensionality reduction. The second one explores a sample-efficient few-shot learning model. The third one evaluates fine-tuning a multilingual transformer on an altered dataset, using data from multiple languages. Finally, the three approaches are combined in a simple majority voting ensemble, resulting in 0.77 macro F1 on the test set and achieving 2nd place on the English subtask.


著者 Georgi Pachov,Dimitar Dimitrov,Ivan Koychev,Preslav Nakov
発行日 2023-09-13 09:49:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CL, cs.MM パーマリンク