CaLMQA: Exploring culturally specific long-form question answering across 23 languages

要約

大規模言語モデル(LLM)は長文質問応答(LFQA)に使用され、複雑な質問に対するパラグラフ長の回答を生成する必要がある。LFQAは英語でよく研究されているが、この研究は他の言語には拡張されていない。このギャップを埋めるために、我々はCaLMQAを紹介する。CaLMQAは、23の言語にまたがる1.5Kの複雑な文化的に特異な質問と、英語から他の22の言語に翻訳された51の文化的に不可知論な質問を集めたものである。私たちは、文化的に特異な質問を、その質問の言語と関連する文化圏の人々によって質問される可能性が高いものとして定義しています。私たちは、コミュニティ・ウェブ・フォーラムから自然に発生する質問を収集し、フィジー語やキルンディ語のようなリソースが不足し、ほとんど研究されていない言語をカバーするために、ネイティブスピーカーに質問を書いてもらっています。私たちのデータセットには、文化的なトピック(伝統、法律、ニュースなど)やネイティブスピーカーの言語使用を反映した、多様で複雑な質問が含まれています。CaLMQAのオープンソースとクローズドソースのモデルを自動的に評価し、不正確な言語とトークンの繰り返しを検出します。最後に、モデルと言語のサブセットについて人間による評価を行った。手動評価により、モデルの性能は、文化的に不可知論的な質問よりも、文化的に特異的な質問に対して著しく悪いことが明らかになりました。我々の発見は、非英語LFQAにおける更なる研究の必要性を強調し、評価の枠組みを提供する。

要約(オリジナル)

Large language models (LLMs) are used for long-form question answering (LFQA), which requires them to generate paragraph-length answers to complex questions. While LFQA has been well-studied in English, this research has not been extended to other languages. To bridge this gap, we introduce CaLMQA, a collection of 1.5K complex culturally specific questions spanning 23 languages and 51 culturally agnostic questions translated from English into 22 other languages. We define culturally specific questions as those uniquely or more likely to be asked by people from cultures associated with the question’s language. We collect naturally-occurring questions from community web forums and hire native speakers to write questions to cover under-resourced, rarely-studied languages such as Fijian and Kirundi. Our dataset contains diverse, complex questions that reflect cultural topics (e.g. traditions, laws, news) and the language usage of native speakers. We automatically evaluate a suite of open- and closed-source models on CaLMQA by detecting incorrect language and token repetitions in answers, and observe that the quality of LLM-generated answers degrades significantly for some low-resource languages. Lastly, we perform human evaluation on a subset of models and languages. Manual evaluation reveals that model performance is significantly worse for culturally specific questions than for culturally agnostic questions. Our findings highlight the need for further research in non-English LFQA and provide an evaluation framework.

arxiv情報

著者 Shane Arora,Marzena Karpinska,Hung-Ting Chen,Ipsita Bhattacharjee,Mohit Iyyer,Eunsol Choi
発行日 2024-07-03 16:33:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク