NormAd: A Benchmark for Measuring the Cultural Adaptability of Large Language Models


大規模言語モデル (LLM) をさまざまなグローバル文化に統合することは、基本的に文化的な課題を提示します。LLM は相互作用をナビゲートし、社会規範を尊重し、文化的境界線を越えないようにする必要があります。
ただし、LLM がその出力を多様な文化規範に適応できるかどうかはまだ不明です。
75 か国の社会的および文化的規範を表す 260 のストーリーを含む新しいデータセットである NormAd を紹介します。これにより、LLM が出身国、それに関連する文化など、さまざまな粒度の社会文化的背景に適応する能力を評価します。
明示的な社会規範があっても、最高性能のモデルである Mistral-7b-Instruct は 81.8\% の精度しか達成できず、人間が達成する 95.6\% の精度に遅れをとっています。
NormAd の評価では、LLM が文化を超えた贈り物を伴うストーリーに適応するのに苦労していることがさらに明らかになりました。
LLM は、固有の同意バイアスまたはお調子者バイアスにより、文化規範から逸脱したストーリーよりも、文化規範に準拠したストーリーの方が社会的に受け入れられるかどうかを評価するのがはるかに簡単であると感じています。
私たちのベンチマークは、LLM の文化的適応性 (またはその欠如) を測定し、これらのテクノロジーをより公平で世界中の視聴者にとって有用なものにする可能性を強調しています。
NormAd データセットとそれに関連するコードを GitHub でリリースします。


The integration of Large Language Models (LLMs) into various global cultures fundamentally presents a cultural challenge: LLMs must navigate interactions, respect social norms, and avoid transgressing cultural boundaries. However, it is still unclear if LLMs can adapt their outputs to diverse cultural norms. Our study focuses on this aspect. We introduce NormAd, a novel dataset, which includes 2.6k stories that represent social and cultural norms from 75 countries, to assess the ability of LLMs to adapt to different granular levels of socio-cultural contexts such as the country of origin, its associated cultural values, and prevalent social norms. Our study reveals that LLMs struggle with cultural reasoning across all contextual granularities, showing stronger adaptability to English-centric cultures over those from the Global South. Even with explicit social norms, the top-performing model, Mistral-7b-Instruct, achieves only 81.8\% accuracy, lagging behind the 95.6\% achieved by humans. Evaluation on NormAd further reveals that LLMs struggle to adapt to stories involving gift-giving across cultures. Due to inherent agreement or sycophancy biases, LLMs find it considerably easier to assess the social acceptability of stories that adhere to cultural norms than those that deviate from them. Our benchmark measures the cultural adaptability (or lack thereof) of LLMs, emphasizing the potential to make these technologies more equitable and useful for global audiences. We release the NormAd dataset and its associated code on GitHub.


著者 Abhinav Rao,Akhila Yerukola,Vishwa Shah,Katharina Reinecke,Maarten Sap
発行日 2024-05-23 17:49:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク