Building Better: Avoiding Pitfalls in Developing Language Resources when Data is Scarce

要約

言語は、さまざまな形で人々の生活に影響を与える象徴的な資本です(Bourdieu、1977、1991)。
これは、アイデンティティ、文化、伝統、社会全般を説明する強力なツールです。
したがって、特定の言語のデータは、トークンのコレクション以上のものと見なす必要があります。
適切なデータ収集とラベル付けの実践は、より人間中心で社会を意識したテクノロジーを構築するための鍵となります。
NLP コミュニティ内では中低リソース言語への関心が高まっていますが、この分野での作業では、データ不足や適切なアノテーターへのアクセスなどの特有の課題を克服する必要があります。
このペーパーでは、中低リソース言語の NLP アーティファクトに直接関与し、その影響を受ける人々からのフィードバックを収集します。
私たちは回答の定量的および定性的分析を実施し、(1) 言語的および文化的データの適合性などのデータ品質に関連する主な問題を浮き彫りにします。
(2) オンライン コミュニティ サービスの悪用など、一般的なアノテーションの実践に関する倫理。
これらの調査結果に基づいて、私たちは、データ ワーカーの尊厳と労力を同時に尊重しながら、話者の文化的環境を反映する高品質の言語成果物を作成するためのいくつかの推奨事項を作成します。

要約(オリジナル)

Language is a symbolic capital that affects people’s lives in many ways (Bourdieu, 1977, 1991). It is a powerful tool that accounts for identities, cultures, traditions, and societies in general. Hence, data in a given language should be viewed as more than a collection of tokens. Good data collection and labeling practices are key to building more human-centered and socially aware technologies. While there has been a rising interest in mid- to low-resource languages within the NLP community, work in this space has to overcome unique challenges such as data scarcity and access to suitable annotators. In this paper, we collect feedback from those directly involved in and impacted by NLP artefacts for mid- to low-resource languages. We conduct a quantitative and qualitative analysis of the responses and highlight the main issues related to (1) data quality such as linguistic and cultural data suitability; and (2) the ethics of common annotation practices such as the misuse of online community services. Based on these findings, we make several recommendations for the creation of high-quality language artefacts that reflect the cultural milieu of its speakers, while simultaneously respecting the dignity and labor of data workers.

arxiv情報

著者 Nedjma Ousidhoum,Meriem Beloucif,Saif M. Mohammad
発行日 2024-10-16 15:51:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY パーマリンク