要約
Wikipediaは、大規模な多言語でコミュニティ主導のプラットフォームであり、自然言語処理(NLP)にとって貴重なリソースですが、栄誉の豊富な言語での敬意を表した使用の一貫性は未定です。
敬意、微妙でありながら深遠な言語マーカーは、社会的階層、礼儀正しさ、文化的価値をエンコードしますが、ウィキペディアの編集ガイドラインは、そのような形が文法的および社会的に一般的である言語での使用に関する明確な基準を欠いています。
このペーパーでは、ヒンディー語とベンガル語のウィキペディアの記事におけるサードパーソンの敬語代名詞と動詞形式の大規模な分析を通じて、このギャップについて説明します。
大規模な言語モデル(LLM)を使用して、性別、年齢、名声、文化的起源などの社会人口統計上の機能のために、言語あたり10,000件の記事を自動的に注釈します。
(i)記事全体での敬意を表した使用の一貫性、(ii)矛盾が社会文化的要因とどのように相関するか、および(iii)言語間の明示的または暗黙的なバイアスの存在を存在する方法を調査します。
私たちは、敬語の使用はヒンディー語よりもベンガル語で一貫して一般的であることがわかりますが、非自尊心のある形は、両方の悪名高い、少年、エキゾチックなエンティティにとってより頻繁です。
特に、性別バイアスは両方の言語、特にヒンディー語で出現します。特に、男性は女性よりも名誉を受ける可能性が高くなります。
私たちの分析では、ウィキペディアが名誉ある使用のための言語固有の編集ガイドラインを開発する必要性を強調しています。
要約(オリジナル)
Wikipedia, as a massively multilingual, community-driven platform, is a valuable resource for Natural Language Processing (NLP), yet the consistency of honorific usage in honorific-rich languages remains underexplored. Honorifics, subtle yet profound linguistic markers, encode social hierarchies, politeness norms, and cultural values, but Wikipedia’s editorial guidelines lack clear standards for their usage in languages where such forms are grammatically and socially prevalent. This paper addresses this gap through a large-scale analysis of third-person honorific pronouns and verb forms in Hindi and Bengali Wikipedia articles. Using Large Language Models (LLM), we automatically annotate 10,000 articles per language for honorific usage and socio-demographic features such as gender, age, fame, and cultural origin. We investigate: (i) the consistency of honorific usage across articles, (ii) how inconsistencies correlate with socio-cultural factors, and (iii) the presence of explicit or implicit biases across languages. We find that honorific usage is consistently more common in Bengali than Hindi, while non-honorific forms are more frequent for infamous, juvenile, and exotic entities in both. Notably, gender bias emerges in both languages, particularly in Hindi, where men are more likely to receive honorifics than women. Our analysis highlights the need for Wikipedia to develop language-specific editorial guidelines for honorific usage.
arxiv情報
著者 | Sourabrata Mukherjee,Atharva Mehta,Soumya Teotia,Sougata Saha,Akhil Arora,Monojit Choudhury |
発行日 | 2025-06-13 13:42:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google