The ParlaSent multilingual training dataset for sentiment identification in parliamentary proceedings

要約

感情は本質的に政治を動かします。
私たちが情報をどのように受け取って処理するかは、政治的意思決定において重要な役割を果たし、議員と大衆の両方のレベルで戦略的な結果を伴う私たちの判断を形作ります。
感情が政治においてこれほど重要な役割を果たしているとしたら、それを体系的に研究し、測定するにはどうすればよいでしょうか?
この論文は、感情注釈が付けられた文の新しいデータセットを紹介します。これらは、議会議事のための堅牢な感情分類器のトレーニングに焦点を当てた一連の実験で使用されます。
この論文では、欧州 27 の議会の議事録からの 17 億 2,000 万のドメイン固有単語でさらに事前トレーニングされた、政治学アプリケーション向けの初のドメイン固有 LLM も紹介されています。
議会データに対する LLM の追加の事前トレーニングによって、ドメイン固有のタスク (この場合は議会議事録における感情検出) におけるモデルの下流のパフォーマンスがどのように大幅に向上するかを実証する実験を紹介します。
さらに、多言語モデルが未知の言語で非常にうまく機能し、他の言語からの追加データが対象議会の結果を大幅に改善することを示します。
この論文は社会科学の複数の領域に重要な貢献をしており、それらをコンピューターサイエンスや計算言語学と橋渡ししています。
最後に、政治文書全般の感情分析に対するより堅牢なアプローチを確立し、学者が標準化されたツールと技術を使用して比較の観点から政治感情を研究できるようにします。

要約(オリジナル)

Sentiments inherently drive politics. How we receive and process information plays an essential role in political decision-making, shaping our judgment with strategic consequences both on the level of legislators and the masses. If sentiment plays such an important role in politics, how can we study and measure it systematically? The paper presents a new dataset of sentiment-annotated sentences, which are used in a series of experiments focused on training a robust sentiment classifier for parliamentary proceedings. The paper also introduces the first domain-specific LLM for political science applications additionally pre-trained on 1.72 billion domain-specific words from proceedings of 27 European parliaments. We present experiments demonstrating how the additional pre-training of LLM on parliamentary data can significantly improve the model downstream performance on the domain-specific tasks, in our case, sentiment detection in parliamentary proceedings. We further show that multilingual models perform very well on unseen languages and that additional data from other languages significantly improves the target parliament’s results. The paper makes an important contribution to multiple domains of social sciences and bridges them with computer science and computational linguistics. Lastly, it sets up a more robust approach to sentiment analysis of political texts in general, which allows scholars to study political sentiment from a comparative perspective using standardized tools and techniques.

arxiv情報

著者 Michal Mochtak,Peter Rupnik,Nikola Ljubešić
発行日 2023-09-18 14:01:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク