WorldView-Bench: A Benchmark for Evaluating Global Cultural Perspectives in Large Language Models

要約

大規模な言語モデル(LLM)は、西洋中心の認識論と社会文化的規範を強化する方法で主に訓練および整合されており、文化的均質化につながり、世界的な文明的複数を反映する能力を制限します。
既存のベンチマークフレームワークは、文化的包括性の複雑さを見落とす硬直した閉じた形式の評価に依存しているため、このバイアスを適切にキャプチャできません。
これに対処するために、多様な世界観に対応する能力を分析することにより、LLMSのグローバルな文化的包括性(GCI)を評価するために設計されたベンチマークであるWorldveiew-Benchを紹介します。
私たちのアプローチは、Senturk et al。によって提案されたマルチプレックスの世界観に基づいています。これは、ユニプレックスモデル、文化的均質化の強化、および多様な視点を統合する多重モデルを区別します。
ワールドビューベンチは、従来のカテゴリベンチマークではなく、自由形式の生成評価を通じて、文化的偏光、代替視点の除外を測定します。
(1)コンテキストが実装された多重LLMSの2つの介入戦略を通じて、適用された多重性を実装します。ここでは、システムがマルチプレックスの原理を埋め込むと促されます。
我々の結果は、肯定的な感情へのシフト(67.7%)と文化バランスの強化に加えて、MAS実装マルチプレックスLLMSを使用して、ベースラインでの13%から94%に視点分布スコア(PDS)エントロピーの大幅な増加を示しています。
これらの発見は、LLMの文化的バイアスを緩和する際の多重認識AI評価の可能性を強調し、より包括的かつ倫理的に整合したAIシステムへの道を開いています。

要約(オリジナル)

Large Language Models (LLMs) are predominantly trained and aligned in ways that reinforce Western-centric epistemologies and socio-cultural norms, leading to cultural homogenization and limiting their ability to reflect global civilizational plurality. Existing benchmarking frameworks fail to adequately capture this bias, as they rely on rigid, closed-form assessments that overlook the complexity of cultural inclusivity. To address this, we introduce WorldView-Bench, a benchmark designed to evaluate Global Cultural Inclusivity (GCI) in LLMs by analyzing their ability to accommodate diverse worldviews. Our approach is grounded in the Multiplex Worldview proposed by Senturk et al., which distinguishes between Uniplex models, reinforcing cultural homogenization, and Multiplex models, which integrate diverse perspectives. WorldView-Bench measures Cultural Polarization, the exclusion of alternative perspectives, through free-form generative evaluation rather than conventional categorical benchmarks. We implement applied multiplexity through two intervention strategies: (1) Contextually-Implemented Multiplex LLMs, where system prompts embed multiplexity principles, and (2) Multi-Agent System (MAS)-Implemented Multiplex LLMs, where multiple LLM agents representing distinct cultural perspectives collaboratively generate responses. Our results demonstrate a significant increase in Perspectives Distribution Score (PDS) entropy from 13% at baseline to 94% with MAS-Implemented Multiplex LLMs, alongside a shift toward positive sentiment (67.7%) and enhanced cultural balance. These findings highlight the potential of multiplex-aware AI evaluation in mitigating cultural bias in LLMs, paving the way for more inclusive and ethically aligned AI systems.

arxiv情報

著者 Abdullah Mushtaq,Imran Taj,Rafay Naeem,Ibrahim Ghaznavi,Junaid Qadir
発行日 2025-05-14 17:43:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.MA パーマリンク