Electoral Agitation Data Set: The Use Case of the Polish Election

要約

ソーシャルメディアの人気により、政治家はソーシャルメディアを政治広告に利用するようになりました。
したがって、ソーシャルメディアは、特に選挙キャンペーン中、選挙扇動(選挙活動)で溢れています。
選挙管理当局は、選挙法の下で扇動とみなされるメッセージの拡散と量を追跡することはできない。
これは重大な問題に対処すると同時に、これまで効果的にターゲットにされていなかったニッチ市場も明らかにします。
そこで、ポーランド語で選挙扇動を検出するための初の公開データセットを紹介します。
これには、法的に条件付けされた 4 つのカテゴリでタグ付けされた、人間による注釈が付けられた 6,112 件のツイートが含まれています。
0.66 のアノテーター間一致 (Cohen のカッパ スコア) を達成しました。
追加のアノテーターにより、最初の 2 つの不一致が解決され、アノテーション プロセスの一貫性と複雑さが改善されました。
新しく作成されたデータセットは、HerBERT と呼ばれるポーランド語言語モデルを微調整するために使用されました (68% の F1 スコアを達成)。
また、そのようなデータセットとモデルの潜在的なユースケースを多数紹介し、Twitter での 2020 年ポーランド大統領選挙の分析で論文を充実させています。

要約(オリジナル)

The popularity of social media makes politicians use it for political advertisement. Therefore, social media is full of electoral agitation (electioneering), especially during the election campaigns. The election administration cannot track the spread and quantity of messages that count as agitation under the election code. It addresses a crucial problem, while also uncovering a niche that has not been effectively targeted so far. Hence, we present the first publicly open data set for detecting electoral agitation in the Polish language. It contains 6,112 human-annotated tweets tagged with four legally conditioned categories. We achieved a 0.66 inter-annotator agreement (Cohen’s kappa score). An additional annotator resolved the mismatches between the first two improving the consistency and complexity of the annotation process. The newly created data set was used to fine-tune a Polish Language Model called HerBERT (achieving a 68% F1 score). We also present a number of potential use cases for such data sets and models, enriching the paper with an analysis of the Polish 2020 Presidential Election on Twitter.

arxiv情報

著者 Mateusz Baran,Mateusz Wójcik,Piotr Kolebski,Michał Bernaczyk,Krzysztof Rajda,Łukasz Augustyniak,Tomasz Kajdanowicz
発行日 2023-07-13 18:14:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク