要約
大規模な言語モデル(LLMS)のグローバルな使用量が増えているにもかかわらず、文化的に特定の質問に対する長期の回答を生成する能力は、多くの言語では未開拓のままです。
このギャップを埋めるために、23の異なる言語で51.7K文化的に特定の質問のデータセットであるCalmqaを作成することにより、テキスト多言語の長型QAの最初の研究を実行します。
文化的に特定の質問を、1つまたはいくつかの文化に固有の概念に言及するものとして定義しているか、文化的または地域的な文脈に応じて異なる答えを持っています。
私たちは、高リソース言語のコミュニティWebフォーラムからの自然に発生する質問をrawったり、ネイティブスピーカーを雇ってフィジアンやキルンディなどのめったにめったに研究されていない言語で質問を書くことによって、これらの質問を取得します。
私たちのデータ収集方法論は翻訳なしで、「Kuber Iki umwami wa mbere w’uburundi yitwa ntare」のような文化的にユニークな質問のコレクションを可能にします。
(Kirundi;英語翻訳:「なぜブルンジの最初の王がntare(ライオン)と呼ばれたのか?」)。
LLM生成された長型の回答の事実、関連性、表面レベルの品質を評価し、(1)多くの言語でさえ、最高のモデルでさえ重要な表面レベルのエラー(たとえば、間違った言語で回答する、繰り返し)を行うことを発見します。
(2)文化的に特定の質問への回答には、文化的に不可知論的な質問に対する回答よりも多くの事実上の誤りが含まれています。これは、多くの文化にわたって一貫した意味と答えを持っている質問です。
Calmqaをリリースして、文化的および多言語の長型QAの将来の研究を促進します。
要約(オリジナル)
Despite rising global usage of large language models (LLMs), their ability to generate long-form answers to culturally specific questions remains unexplored in many languages. To fill this gap, we perform the first study of textual multilingual long-form QA by creating CaLMQA, a dataset of 51.7K culturally specific questions across 23 different languages. We define culturally specific questions as those that refer to concepts unique to one or a few cultures, or have different answers depending on the cultural or regional context. We obtain these questions by crawling naturally-occurring questions from community web forums in high-resource languages, and by hiring native speakers to write questions in under-resourced, rarely-studied languages such as Fijian and Kirundi. Our data collection methodologies are translation-free, enabling the collection of culturally unique questions like ‘Kuber iki umwami wa mbere w’uburundi yitwa Ntare?’ (Kirundi; English translation: ‘Why was the first king of Burundi called Ntare (Lion)?’). We evaluate factuality, relevance and surface-level quality of LLM-generated long-form answers, finding that (1) for many languages, even the best models make critical surface-level errors (e.g., answering in the wrong language, repetition), especially for low-resource languages; and (2) answers to culturally specific questions contain more factual errors than answers to culturally agnostic questions — questions that have consistent meaning and answer across many cultures. We release CaLMQA to facilitate future research in cultural and multilingual long-form QA.
arxiv情報
著者 | Shane Arora,Marzena Karpinska,Hung-Ting Chen,Ipsita Bhattacharjee,Mohit Iyyer,Eunsol Choi |
発行日 | 2025-06-11 16:56:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google