要約
大規模な言語モデルは、検索、オンライン教育、旅行計画など、社会的知識の生産や発見を形成するアプリケーションにますます統合されつつある。その結果、言語モデルは、人々がどのようにグローバル文化について学び、認識し、相互作用するかを形成することになり、モデルの中で誰の知識体系や視点が表現されているかを考慮することが重要になる。この重要性を認識し、機械学習とNLPの分野では、出力内のグローバルな文化表現分布のギャップを評価することに焦点を当てた研究が増えている。しかし、文化的な影響や危害について社会学的に認識されたニュアンスのある概念に由来する、言語モデルの異文化への影響に関するベンチマークの開発については、さらなる研究が必要である。われわれは、歴史的な権力の不平等や、グローバルな文化、特にデジタルコーパスですでに十分に表現されていない文化に対する表現の差異的な影響を調査し、説明する、言語テクノロジーの測定可能な評価の必要性を主張する。省略:文化がまったく表現されない場合」と「単純化:豊かな文化を一面的に表現することによって、文化の複雑さが消去される場合」という2つの消去の概念に注目する。前者は何かが表現されているかどうか、後者はどのように表現されているかに焦点を当てる。私たちは、グローバルな文化生産に影響を与える可能性のある2つのタスクの文脈に焦点を当てて分析を行う。第一に、言語モデルが世界中のさまざまな場所について説明するよう求められたときに生成される表現を調べる。第二に、一連の言語モデルアプリケーションによって生成された旅行推薦文に表現された文化を分析する。我々の研究は、NLPコミュニティとアプリケーション開発者が、複雑な社会文化的考察を標準的な評価とベンチマークに運用し始めることができる方法を示している。
要約(オリジナル)
Large language models are increasingly being integrated into applications that shape the production and discovery of societal knowledge such as search, online education, and travel planning. As a result, language models will shape how people learn about, perceive and interact with global cultures making it important to consider whose knowledge systems and perspectives are represented in models. Recognizing this importance, increasingly work in Machine Learning and NLP has focused on evaluating gaps in global cultural representational distribution within outputs. However, more work is needed on developing benchmarks for cross-cultural impacts of language models that stem from a nuanced sociologically-aware conceptualization of cultural impact or harm. We join this line of work arguing for the need of metricizable evaluations of language technologies that interrogate and account for historical power inequities and differential impacts of representation on global cultures, particularly for cultures already under-represented in the digital corpora. We look at two concepts of erasure: omission: where cultures are not represented at all and simplification i.e. when cultural complexity is erased by presenting one-dimensional views of a rich culture. The former focuses on whether something is represented, and the latter on how it is represented. We focus our analysis on two task contexts with the potential to influence global cultural production. First, we probe representations that a language model produces about different places around the world when asked to describe these contexts. Second, we analyze the cultures represented in the travel recommendations produced by a set of language model applications. Our study shows ways in which the NLP community and application developers can begin to operationalize complex socio-cultural considerations into standard evaluations and benchmarks.
arxiv情報
著者 | Rida Qadri,Aida M. Davani,Kevin Robinson,Vinodkumar Prabhakaran |
発行日 | 2025-01-02 04:57:50+00:00 |
arxivサイト | arxiv_id(pdf) |