NormAd: A Benchmark for Measuring the Cultural Adaptability of Large Language Models

要約

大規模言語モデル (LLM) をさまざまなグローバル文化に統合することは、基本的に課題を提示します。LLM は相互作用をナビゲートし、社会規範を尊重し、文化的境界線を越えないようにする必要があります。
ただし、LLM がその出力を多様な文化規範に適応できるかどうかはまだ不明です。
私たちの研究はこの側面に焦点を当てています。
75 か国の社会的および文化的規範を表す 260 のストーリーを含む新しいデータセットである NormAd を紹介します。これにより、LLM が出身国、それに関連する文化など、さまざまな粒度の社会文化的背景に適応する能力を評価します。
価値観や一般的な社会規範。
私たちの研究では、LLMは文脈上のあらゆる粒度にわたって文化的推論に苦労しており、グローバル・サウスの人々よりも英語中心の文化に対してより強い適応力を示していることが明らかになりました。
明示的な社会規範があっても、最高性能のモデルである Mistral-7b-Instruct は 81.8% の精度しか達成できず、人間が達成する 95.6% には及ばない。
NormAd の評価では、LLM が文化を超えた贈り物を伴うストーリーに適応するのに苦労していることがさらに明らかになりました。
固有の合意バイアスまたはおべっかのバイアスにより、LLM は逸脱したストーリーよりも、規範に準拠したストーリーの方が社会的受容性を評価するのがはるかに簡単であると感じます。
私たちのベンチマークは、LLM の文化的適応性 (またはその欠如) を測定し、これらのテクノロジーをより公平で世界中の視聴者にとって有用なものにする可能性を強調しています。
NormAd データセットとその関連コードを GitHub でリリースします。

要約(オリジナル)

The integration of large language models (LLMs) into various global cultures fundamentally presents a challenge: LLMs must navigate interactions, respect social norms, and avoid transgressing cultural boundaries. However, it is still unclear if LLMs can adapt their outputs to diverse cultural norms. Our study focuses on this aspect. We introduce NormAd, a novel dataset, which includes 2.6k stories that represent social and cultural norms from 75 countries, to assess the ability of LLMs to adapt to different granular levels of socio-cultural contexts such as the country of origin, its associated cultural values, and prevalent social norms. Our study reveals that LLMs struggle with cultural reasoning across all contextual granularities, showing stronger adaptability to English-centric cultures over those from the Global South. Even with explicit social norms, the top-performing model, Mistral-7b-Instruct, achieves only 81.8% accuracy, lagging behind the 95.6% achieved by humans. Evaluation on NormAd further reveals that LLMs struggle to adapt to stories involving gift-giving across cultures. Due to inherent agreement or sycophancy biases, LLMs find it considerably easier to assess the social acceptability of stories that adhere to norms than those that deviate. Our benchmark measures the cultural adaptability (or lack thereof) of LLMs, emphasizing the potential to make these technologies more equitable and useful for global audiences. We release the NormAd dataset and its associated code on GitHub.

arxiv情報

著者 Abhinav Rao,Akhila Yerukola,Vishwa Shah,Katharina Reinecke,Maarten Sap
発行日 2024-07-11 14:05:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク