要約
本論文は、SemEval-2023 Task 3 ‘Detecting the genre, the framing, and the persuasion techniques in online news in a multi-lingual setup’ へのチーム日立の参加について説明する。タスクの多言語・多タスクの性質と、訓練データが限られているという設定に基づき、低リソース環境下で事前訓練した言語モデルを訓練するためのさまざまな戦略を検討しました。その結果、(a)クロスリンガル/マルチタスク学習、(b)外部バランスデータセットの収集が、ジャンルやフレーミングの検出に有効であることを発見しました。その結果からアンサンブルモデルを構築し、イタリア語とロシア語のジャンル分類サブタスクにおいて、マクロ平均で最高のF1スコアを達成した。
要約(オリジナル)
This paper explains the participation of team Hitachi to SemEval-2023 Task 3 ‘Detecting the genre, the framing, and the persuasion techniques in online news in a multi-lingual setup.’ Based on the multilingual, multi-task nature of the task and the setting that training data is limited, we investigated different strategies for training the pretrained language models under low resource settings. Through extensive experiments, we found that (a) cross-lingual/multi-task training, and (b) collecting an external balanced dataset, can benefit the genre and framing detection. We constructed ensemble models from the results and achieved the highest macro-averaged F1 scores in Italian and Russian genre categorization subtasks.
arxiv情報
| 著者 | Yuta Koreeda,Ken-ichi Yokote,Hiroaki Ozaki,Atsuki Yamaguchi,Masaya Tsunokake,Yasuhiro Sogawa | 
| 発行日 | 2023-03-03 09:12:55+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
