CaLMQA: Exploring culturally specific long-form question answering across 23 languages

要約

大規模言語モデル (LLM) は、長い形式の質問への回答によく使用され、複雑な質問に対して段落長の回答を生成する必要があります。
英語では長文 QA がさまざまなデータセットや評価指標を使用してよく研究されていますが、この研究は他のほとんどの言語をカバーするように拡張されていません。
このギャップを埋めるために、フィジー語やキルンディ語などのリソースが不足し、ほとんど研究されていない言語を含む、23 言語にわたる 260 の複雑な質問を集めた CaLMQA を紹介します。
私たちのデータセットには、コミュニティ Web フォーラムから収集した自然発生的な質問と、この目的のために雇用したネイティブ スピーカーによって書かれた質問の両方が含まれています。
私たちのプロセスでは、文化的なトピック (伝統、法律、ニュースなど) やネイティブ スピーカーの言語使用法を反映した、多様で複雑な質問が生成されます。
私たちは、回答内の間違った言語とトークンの繰り返しを検出する新しい指標 CaLMScore を使用して、一連のオープンソース モデルとクローズドソース モデル全体で自動評価を実施し、一部の低リソース言語では LLM によって生成された回答の品質が大幅に低下することを観察しました。
モデルのサブセットに対して人間による評価を実行したところ、文化に依存しない質問よりも文化的に固有の質問の方がモデルのパフォーマンスが大幅に悪いことがわかりました。
私たちの調査結果は、LLM の多言語機能と非英語の LFQA 評価についてさらなる研究の必要性を浮き彫りにしています。

要約(オリジナル)

Large language models (LLMs) are commonly used for long-form question answering, which requires them to generate paragraph-length answers to complex questions. While long-form QA has been well-studied in English via many different datasets and evaluation metrics, this research has not been extended to cover most other languages. To bridge this gap, we introduce CaLMQA, a collection of 2.6K complex questions spanning 23 languages, including under-resourced, rarely-studied languages such as Fijian and Kirundi. Our dataset includes both naturally-occurring questions collected from community web forums as well as questions written by native speakers, whom we hire for this purpose. Our process yields diverse, complex questions that reflect cultural topics (e.g. traditions, laws, news) and the language usage of native speakers. We conduct automatic evaluation across a suite of open- and closed-source models using our novel metric CaLMScore, which detects incorrect language and token repetitions in answers, and observe that the quality of LLM-generated answers degrades significantly for some low-resource languages. We perform human evaluation on a subset of models and see that model performance is significantly worse for culturally specific questions than for culturally agnostic questions. Our findings highlight the need for further research in LLM multilingual capabilities and non-English LFQA evaluation.

arxiv情報

著者 Shane Arora,Marzena Karpinska,Hung-Ting Chen,Ipsita Bhattacharjee,Mohit Iyyer,Eunsol Choi
発行日 2024-06-25 17:45:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク