The ParlaSent Multilingual Training Dataset for Sentiment Identification in Parliamentary Proceedings

要約

この論文では、感情について手動で注釈が付けられた 7 つの言語の文章の新しいトレーニング データセットを紹介します。これらは、議会議事のための堅牢な感情識別子のトレーニングに焦点を当てた一連の実験で使用されます。
さらに、この論文では、欧州 27 の議会の議会議事録からの 17 億 2,000 万語に基づいて事前トレーニングされた、政治学アプリケーション向けの初のドメイン固有の多言語トランスフォーマー言語モデルも紹介しています。
議会データに対する追加の事前トレーニングがモデルの下流のパフォーマンス、この場合は議会の議事における感情の特定をどのように大幅に改善できるかを実証する実験を紹介します。
さらに、微調整中に見られなかった言語では多言語モデルが非常にうまく機能し、他の言語からの追加の微調整データによって対象議会の結果が大幅に改善されることも示します。
この論文は社会科学内の複数の分野に重要な貢献をしており、それらをコンピューターサイエンスや計算言語学と橋渡しします。
最後に、結果として得られる微調整された言語モデルは、言語を超えた政治文書の感情分析に対するより堅牢なアプローチを確立し、学者が標準化されたツールと技術を使用して比較的な観点から政治感情を研究できるようにします。

要約(オリジナル)

The paper presents a new training dataset of sentences in 7 languages, manually annotated for sentiment, which are used in a series of experiments focused on training a robust sentiment identifier for parliamentary proceedings. The paper additionally introduces the first domain-specific multilingual transformer language model for political science applications, which was additionally pre-trained on 1.72 billion words from parliamentary proceedings of 27 European parliaments. We present experiments demonstrating how the additional pre-training on parliamentary data can significantly improve the model downstream performance, in our case, sentiment identification in parliamentary proceedings. We further show that our multilingual model performs very well on languages not seen during fine-tuning, and that additional fine-tuning data from other languages significantly improves the target parliament’s results. The paper makes an important contribution to multiple disciplines inside the social sciences, and bridges them with computer science and computational linguistics. Lastly, the resulting fine-tuned language model sets up a more robust approach to sentiment analysis of political texts across languages, which allows scholars to study political sentiment from a comparative perspective using standardized tools and techniques.

arxiv情報

著者 Michal Mochtak,Peter Rupnik,Nikola Ljubešić
発行日 2024-03-20 10:33:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク