Multi-FAct: Assessing Multilingual LLMs’ Multi-Regional Knowledge using FActScore

要約

大規模言語モデル(LLM)は、既知の知識と矛盾するテキストを生成する、事実性の幻覚を起こしやすい。英語については広範な研究が行われているが、多言語LLMについてはほとんど知られていない。本論文では、多言語LLMの事実誤認の正確さを、言語や地理的な地域にわたって体系的に評価する。多言語事実性評価のための新しいパイプラインを導入し、FActScore(Min et al., 2023)を多様な言語に適応させる。9言語にわたる分析により、英語は、事実の正確さと生成された事実の量において、一貫して他を凌駕することが明らかになった。さらに、多言語モデルは、西側大陸からの事実情報への偏りを示している。これらの知見は、多言語による事実性評価の改善の必要性を強調し、LLMの事実生成における地理的バイアスを強調するものである。

要約(オリジナル)

Large Language Models (LLMs) are prone to factuality hallucination, generating text that contradicts established knowledge. While extensive research has addressed this in English, little is known about multilingual LLMs. This paper systematically evaluates multilingual LLMs’ factual accuracy across languages and geographic regions. We introduce a novel pipeline for multilingual factuality evaluation, adapting FActScore(Min et al., 2023) for diverse languages. Our analysis across nine languages reveals that English consistently outperforms others in factual accuracy and quantity of generated facts. Furthermore, multilingual models demonstrate a bias towards factual information from Western continents. These findings highlight the need for improved multilingual factuality assessment and underscore geographical biases in LLMs’ fact generation.

arxiv情報

著者 Sheikh Shafayat,Eunsu Kim,Juhyun Oh,Alice Oh
発行日 2024-03-01 12:35:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク