CulturalBench: a Robust, Diverse and Challenging Benchmark on Measuring the (Lack of) Cultural Knowledge of LLMs

要約

大規模言語モデル(LLM)を多様な文化圏でより役立つものにするためには、進捗を測定・追跡するための効果的な文化知識ベンチマークが不可欠である。効果的なベンチマークは、ロバストで、多様で、チャレンジングである必要がある。カルチュラルベンチは、バングラデシュ、ジンバブエ、ペルーのような代表的でない地域を含む世界45地域をカバーし、LLMの文化的知識を効果的に評価するための、人間が書き、人間が検証した1,227の質問セットです。各質問は5人の独立したアノテーターによって検証され、食べ物の好みから挨拶の作法まで、17の多様なトピックに及んでいる。我々は2つのセットアップでモデルを評価する:CulturalBench-EasyとCulturalBench-Hardの2つのセットアップでモデルを評価した。LLMはこのようなセットアップの違いに敏感であることがわかった(例えば、GPT-4oでは27.3%の違い)。人間のパフォーマンス(92.6%の精度)と比較すると、CulturalBench-HardはフロンティアLLMにとってより困難であり、最もパフォーマンスの高いモデル(GPT-4o)は61.5%、最も低いモデル(Llama3-8b)は21.4%にとどまる。さらに、LLMは、複数の正解があるトリッキーな問題(例:中国人は通常どのような食器を使うか)に苦戦することが多く、単一の答えに収束する傾向があることが明らかになりました。また、OpenAI GPT-4oは、1つの地域(オセアニア)を除くすべての地域に関連する質問において、他のプロプライエタリおよびオープンソースモデルを大幅に上回るという結果も示しています。それにもかかわらず、南米と中東に関する問題では、すべてのモデルが一貫して劣っています。

要約(オリジナル)

To make large language models (LLMs) more helpful across diverse cultures, it is essential to have effective cultural knowledge benchmarks to measure and track our progress. Effective benchmarks need to be robust, diverse, and challenging. We introduce CulturalBench: a set of 1,227 human-written and human-verified questions for effectively assessing LLMs’ cultural knowledge, covering 45 global regions including the underrepresented ones like Bangladesh, Zimbabwe, and Peru. Questions – each verified by five independent annotators – span 17 diverse topics ranging from food preferences to greeting etiquettes. We evaluate models on two setups: CulturalBench-Easy and CulturalBench-Hard which share the same questions but asked differently. We find that LLMs are sensitive to such difference in setups (e.g., GPT-4o with 27.3% difference). Compared to human performance (92.6% accuracy), CulturalBench-Hard is more challenging for frontier LLMs with the best performing model (GPT-4o) at only 61.5% and the worst (Llama3-8b) at 21.4%. Moreover, we find that LLMs often struggle with tricky questions that have multiple correct answers (e.g., What utensils do the Chinese usually use?), revealing a tendency to converge to a single answer. Our results also indicate that OpenAI GPT-4o substantially outperform other proprietary and open source models in questions related to all but one region (Oceania). Nonetheless, all models consistently underperform on questions related to South America and the Middle East.

arxiv情報

著者 Yu Ying Chiu,Liwei Jiang,Bill Yuchen Lin,Chan Young Park,Shuyue Stella Li,Sahithya Ravi,Mehar Bhatia,Maria Antoniak,Yulia Tsvetkov,Vered Shwartz,Yejin Choi
発行日 2024-10-03 17:04:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク