Lessons Learned from a Citizen Science Project for Natural Language Processing

要約

タイトル:自然言語処理の市民科学プロジェクトからの学び

要約:

– 自然言語処理(NLP)システムは注釈付きコーパスを使用してトレーニングおよび評価していることが多く、しかし、注釈付きデータの取得はコストがかかり、注釈プロジェクトの拡大は困難であるため、注釈タスクはしばしば有料のクラウドワーカーにアウトソーシングされる。
– 市民科学は、NLPの文脈で比較的未開拓のクラウドソーシングの代替手段である。私たちは、既存のクラウドソーシングデータセットの一部を再注釈することによって、様々なボランティアグループを市民科学に参加させることを調査し、市民科学がどのように適用できるかを調べる探索的研究を行った。
– 結果として、市民科学はハイクオリティな注釈を提供し、意欲的なボランティアを集めることができることが示されたが、拡張性、時間の経過による参加と法的・倫理的な問題などの要因を考慮する必要がある。
– 私たちは、ガイドラインの形で学んだ教訓をまとめ、将来の市民科学に関する研究に役立つコードとデータを提供する。

要約(オリジナル)

Many Natural Language Processing (NLP) systems use annotated corpora for training and evaluation. However, labeled data is often costly to obtain and scaling annotation projects is difficult, which is why annotation tasks are often outsourced to paid crowdworkers. Citizen Science is an alternative to crowdsourcing that is relatively unexplored in the context of NLP. To investigate whether and how well Citizen Science can be applied in this setting, we conduct an exploratory study into engaging different groups of volunteers in Citizen Science for NLP by re-annotating parts of a pre-existing crowdsourced dataset. Our results show that this can yield high-quality annotations and attract motivated volunteers, but also requires considering factors such as scalability, participation over time, and legal and ethical issues. We summarize lessons learned in the form of guidelines and provide our code and data to aid future work on Citizen Science.

arxiv情報

著者 Jan-Christoph Klie,Ji-Ung Lee,Kevin Stowe,Gözde Gül Şahin,Nafise Sadat Moosavi,Luke Bates,Dominic Petrak,Richard Eckart de Castilho,Iryna Gurevych
発行日 2023-04-25 14:08:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク