要約
従来の選挙監視に代わる補完的な代替としてのクラウドソーシングされた選挙監視の採用が増加しています。
しかし、着信選挙報告を手動で処理するためのデジタル対応ボランティアへの依存は、重要なスケーリングボトルネックをもたらします。
この論文では、クラウドソーシングされた選挙報告書の自動分類のタスクを多言語およびクロスドメイン分類設定に進めることにより、クラウドソーシングの選挙監視をスケーリングするという課題に対処します。
最初に有益なレポートを識別し、それらを異なる情報タイプに分類するという2段階の分類アプローチを提案します。
XLM-Robertaなどの多言語トランスモデルや、言語的に動機付けられた機能で拡張されたStbertなどの多言語埋め込みモデルを使用して分類実験を実施しています。
私たちのアプローチでは、情報型分類では、情報検出のために77 \%のF1スコアを達成します。
クロスドメイン実験を実施し、ソース選挙領域で訓練されたモデルをゼロショットおよび少ないショット分類設定で新しいターゲット選挙領域に適用します。
我々の結果は、選挙領域全体でモデル移転の有望な可能性を示しており、F1スコアはゼロショットで59 \%、少ないショット設定では63 \%です。
ただし、我々の分析は、トレーニングデータの不均衡のために、おそらくスワヒリ語をめぐる有益な英語レポートを検出する際のパフォーマンスバイアスも明らかにしているため、実際の選挙シナリオに分類モデルを展開する際の注意が必要であることを示しています。
要約(オリジナル)
The adoption of crowdsourced election monitoring as a complementary alternative to traditional election monitoring is on the rise. Yet, its reliance on digital response volunteers to manually process incoming election reports poses a significant scaling bottleneck. In this paper, we address the challenge of scaling crowdsourced election monitoring by advancing the task of automated classification of crowdsourced election reports to multilingual and cross-domain classification settings. We propose a two-step classification approach of first identifying informative reports and then categorising them into distinct information types. We conduct classification experiments using multilingual transformer models such as XLM-RoBERTa and multilingual embeddings such as SBERT, augmented with linguistically motivated features. Our approach achieves F1-Scores of 77\% for informativeness detection and 75\% for information type classification. We conduct cross-domain experiments, applying models trained in a source electoral domain to a new target electoral domain in zero-shot and few-shot classification settings. Our results show promising potential for model transfer across electoral domains, with F1-Scores of 59\% in zero-shot and 63\% in few-shot settings. However, our analysis also reveals a performance bias in detecting informative English reports over Swahili, likely due to imbalances in the training data, indicating a need for caution when deploying classification models in real-world election scenarios.
arxiv情報
著者 | Jabez Magomere,Scott Hale |
発行日 | 2025-03-05 15:17:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google