Uchaguzi-2022: A Dataset of Citizen Reports on the 2022 Kenyan Election

要約

オンライン報告プラットフォームにより、世界中の国民が意見を共有し、地域社会に影響を与える出来事についてリアルタイムで報告できるようになりました。
大量のクラウドソーシング情報を体系的に整理し(属性ごとに分類するなど)、ジオタグを付けることは、このデータから正確で有意義な洞察を確実に引き出し、政策立案者が前向きな変化をもたらすために使用できるようにするために重要です。
ただし、これらのタスクには通常、手作業による大規模な注釈作業が必要です。
この論文では、2022 年のケニア総選挙に関連する 14,000 件の分類され、ジオタグが付けられた市民レポートのデータセットである Uchaguzi-2022 を紹介します。このデータセットには、公務員の不正行為、投票数の不正行為、暴力行為などの選挙関連の問題についての言及が含まれています。
私たちはこのデータセットを使用して、言語モデルがレポートのスケーラブルな分類と地理的タグ付けに役立つかどうかを調査し、ソーシャル グッド分野の AI におけるその潜在的な応用例を強調します。

要約(オリジナル)

Online reporting platforms have enabled citizens around the world to collectively share their opinions and report in real time on events impacting their local communities. Systematically organizing (e.g., categorizing by attributes) and geotagging large amounts of crowdsourced information is crucial to ensuring that accurate and meaningful insights can be drawn from this data and used by policy makers to bring about positive change. These tasks, however, typically require extensive manual annotation efforts. In this paper we present Uchaguzi-2022, a dataset of 14k categorized and geotagged citizen reports related to the 2022 Kenyan General Election containing mentions of election-related issues such as official misconduct, vote count irregularities, and acts of violence. We use this dataset to investigate whether language models can assist in scalably categorizing and geotagging reports, thus highlighting its potential application in the AI for Social Good space.

arxiv情報

著者 Roberto Mondini,Neema Kotonya,Robert L. Logan IV,Elizabeth M Olson,Angela Oduor Lungati,Daniel Duke Odongo,Tim Ombasa,Hemank Lamba,Aoife Cahill,Joel R. Tetreault,Alejandro Jaimes
発行日 2024-12-17 17:08:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SI パーマリンク