Team SheffieldVeraAI at SemEval-2023 Task 3: Mono and multilingual approaches for news genre, topic and persuasion technique classification

要約

このホワイト ペーパーでは、SemEval-2023 タスク 3 のアプローチについて説明します。多言語セットアップでのオンライン ニュースのカテゴリ、フレーミング、および説得手法の検出。
サブタスク 1 (ニュース ジャンル) では、完全にトレーニングされたアダプター mBERT モデルのアンサンブルを提案します。このモデルは、ドイツ語で最初にランク付けされ、多言語チームの平均ランクが最も高くなりました。
サブタスク 2 (フレーミング) では、2 つの個別のアンサンブル (モノリンガル RoBERTa-MUPPETLARGE と、アダプターとタスク適応事前トレーニングを備えた XLM-RoBERTaLARGE のアンサンブル) を使用して、3 つの言語で 1 位になり、すべての言語で最高の平均ランクを達成しました。
サブタスク 3 (説得テクニック) では、英語の単一言語 RoBERTa-Base モデルと残りの言語の多言語 mBERT モデルをトレーニングし、英語で 2 位を含むすべての言語でトップ 10 を達成しました。
サブタスクごとに、単一言語と多言語のアプローチを比較し、クラスの不均衡手法を検討します。

要約(オリジナル)

This paper describes our approach for SemEval-2023 Task 3: Detecting the category, the framing, and the persuasion techniques in online news in a multi-lingual setup. For Subtask 1 (News Genre), we propose an ensemble of fully trained and adapter mBERT models which was ranked joint-first for German, and had the highest mean rank of multi-language teams. For Subtask 2 (Framing), we achieved first place in 3 languages, and the best average rank across all the languages, by using two separate ensembles: a monolingual RoBERTa-MUPPETLARGE and an ensemble of XLM-RoBERTaLARGE with adapters and task adaptive pretraining. For Subtask 3 (Persuasion Techniques), we train a monolingual RoBERTa-Base model for English and a multilingual mBERT model for the remaining languages, which achieved top 10 for all languages, including 2nd for English. For each subtask, we compare monolingual and multilingual approaches, and consider class imbalance techniques.

arxiv情報

著者 Ben Wu,Olesya Razuvayevskaya,Freddy Heppell,João A. Leite,Carolina Scarton,Kalina Bontcheva,Xingyi Song
発行日 2023-03-16 15:54:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク