Cultural Alignment in Large Language Models: An Explanatory Analysis Based on Hofstede’s Cultural Dimensions

要約

大規模言語モデル (LLM) の展開は、その文化的な不整合と、多様な文化的背景を持つ個人や社会への潜在的な影響に関する懸念を引き起こします。
言説は主に政治的および社会的偏見に焦点を当ててきましたが、私たちの研究は、ホフステードの文化的次元フレームワークを使用して文化的整合性を定量化するための文化的整合性テスト(ホフステードの CAT)を提案しています。これは、潜在変数分析を通じて説明的な異文化間比較を提供します。
私たちは、LLM、すなわち Llama 2、GPT-3.5、GPT-4 を米国、中国、アラブ諸国などの地域の文化的側面に照らして定量的に評価するアプローチを適用し、さまざまなプロンプト スタイルを使用し、言語の影響を調査します。
モデルの行動傾向と文化的価値観を具体的に微調整します。
私たちの結果は、LLM の文化的連携を定量化し、説明的な文化的側面における LLM 間の違いを明らかにします。
私たちの研究は、すべての LLM が文化的価値観を理解するのに苦労している一方で、GPT-4 は、特に中国の環境において文化的ニュアンスに適応する独自の能力を示していることを示しています。
しかし、アメリカ文化とアラブ文化の課題に直面しています。
この研究では、LLama 2 モデルをさまざまな言語で微調整すると、文化的な質問に対する反応が変わることも強調されており、世界中で受け入れられ、倫理的に使用されるためには、文化的に多様な AI 開発の必要性が強調されています。
詳細について、またはこの研究に貢献するには、GitHub ページ https://github.com/reemim/Hofstedes_CAT/ をご覧ください。

要約(オリジナル)

The deployment of large language models (LLMs) raises concerns regarding their cultural misalignment and potential ramifications on individuals and societies with diverse cultural backgrounds. While the discourse has focused mainly on political and social biases, our research proposes a Cultural Alignment Test (Hoftede’s CAT) to quantify cultural alignment using Hofstede’s cultural dimension framework, which offers an explanatory cross-cultural comparison through the latent variable analysis. We apply our approach to quantitatively evaluate LLMs, namely Llama 2, GPT-3.5, and GPT-4, against the cultural dimensions of regions like the United States, China, and Arab countries, using different prompting styles and exploring the effects of language-specific fine-tuning on the models’ behavioural tendencies and cultural values. Our results quantify the cultural alignment of LLMs and reveal the difference between LLMs in explanatory cultural dimensions. Our study demonstrates that while all LLMs struggle to grasp cultural values, GPT-4 shows a unique capability to adapt to cultural nuances, particularly in Chinese settings. However, it faces challenges with American and Arab cultures. The research also highlights that fine-tuning LLama 2 models with different languages changes their responses to cultural questions, emphasizing the need for culturally diverse development in AI for worldwide acceptance and ethical use. For more details or to contribute to this research, visit our GitHub page https://github.com/reemim/Hofstedes_CAT/

arxiv情報

著者 Reem I. Masoud,Ziquan Liu,Martin Ferianc,Philip Treleaven,Miguel Rodrigues
発行日 2024-05-08 14:48:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.LG パーマリンク