BLEnD: A Benchmark for LLMs on Everyday Knowledge in Diverse Cultures and Languages

要約

大規模言語モデル (LLM) には、特に多様な地域や英語以外の言語にわたる、日常生活に関する文化固有の知識が欠けていることがよくあります。
LLM の文化的感受性を評価するための既存のベンチマークは、単一言語に限定されているか、ウィキペディアなどのオンライン ソースから収集されており、さまざまな地域の平凡な日常生活を反映していません。
つまり、人々が誕生日のお祝いに食べる食べ物、彼らが通常使用するスパイス、若者が演奏する楽器、または学校で練習しているスポーツに関する情報は、一般的な文化知識ですが、特に過小評価されている文化では、簡単に収集できるオンラインソースでは一般的ではありません。
この問題に対処するために、多様な文化や言語にわたる LLM の日常知識を評価するために設計された手作りのベンチマークである BLEnD を導入します。
BLEnD は、アムハラ語、アッサム語、アゼルバイジャン語、ハウサ語、スンダ語などの低リソース言語を含む 13 の異なる言語で、16 の国と地域からの 52.6k の質問と回答のペアで構成されています。
ベンチマークは、短答式と多肢選択式の 2 つの形式の質問を含めるように構築されています。
オンラインでの代表性が高い文化では LLM のパフォーマンスが向上し、短答形式で最もパフォーマンスの高いモデルである GPT-4 では最大 57.34% の差があることがわかりました。
中~高リソースの言語で表される文化では、LLM はローカル言語でより良いパフォーマンスを示しますが、低リソース言語で表される文化では、LLM はローカル言語よりも英語でより良いパフォーマンスを示します。
データセットは https://github.com/nlee0212/BLEnD で公開しています。

要約(オリジナル)

Large language models (LLMs) often lack culture-specific knowledge of daily life, especially across diverse regions and non-English languages. Existing benchmarks for evaluating LLMs’ cultural sensitivities are limited to a single language or collected from online sources such as Wikipedia, which do not reflect the mundane everyday lifestyles of diverse regions. That is, information about the food people eat for their birthday celebrations, spices they typically use, musical instruments youngsters play, or the sports they practice in school is common cultural knowledge but uncommon in easily collected online sources, especially for underrepresented cultures. To address this issue, we introduce BLEnD, a hand-crafted benchmark designed to evaluate LLMs’ everyday knowledge across diverse cultures and languages. BLEnD comprises 52.6k question-answer pairs from 16 countries/regions, in 13 different languages, including low-resource ones such as Amharic, Assamese, Azerbaijani, Hausa, and Sundanese. We construct the benchmark to include two formats of questions: short-answer and multiple-choice. We show that LLMs perform better for cultures that are highly represented online, with a maximum 57.34% difference in GPT-4, the best-performing model, in the short-answer format. For cultures represented by mid-to-high-resource languages, LLMs perform better in their local languages, but for cultures represented by low-resource languages, LLMs perform better in English than the local languages. We make our dataset publicly available at: https://github.com/nlee0212/BLEnD.

arxiv情報

著者 Junho Myung,Nayeon Lee,Yi Zhou,Jiho Jin,Rifki Afina Putri,Dimosthenis Antypas,Hsuvas Borkakoty,Eunsu Kim,Carla Perez-Almendros,Abinew Ali Ayele,Víctor Gutiérrez-Basulto,Yazmín Ibáñez-García,Hwaran Lee,Shamsuddeen Hassan Muhammad,Kiwoong Park,Anar Sabuhi Rzayev,Nina White,Seid Muhie Yimam,Mohammad Taher Pilehvar,Nedjma Ousidhoum,Jose Camacho-Collados,Alice Oh
発行日 2024-06-14 11:48:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク