Faux Polyglot: A Study on Information Disparity in Multilingual Large Language Models

要約

検索拡張生成 (RAG) により、大規模言語モデル (LLM) は情報検索において重要な役割を果たしており、世界中で採用されています。
LLM の多言語機能は、言語の壁を埋める新たな機会を提供しますが、これらの機能は、多言語ソース間で言語の分断や知識の衝突が発生することが知られている現実のシナリオに反映されるのでしょうか?
この論文では、RAG ベースの情報検索設定における LLM の言語選好を研究しました。
私たちは、LLM が情報検索と回答生成の両方において、クエリ言語と同じ言語の情報に対して体系的な偏りを示していることを発見しました。
さらに、クエリ言語の情報がほとんどないシナリオでは、LLM は高リソース言語のドキュメントを好み、支配的な見解を強化します。
このようなバイアスは、事実に基づく質問と意見に基づく質問の両方に存在します。
私たちの結果は、情報検索システムにおける多言語 LLM 内の言語的分断を浮き彫りにしました。
LLM の一見有益な多言語機能は、言語固有の情報のコクーンやフィルター バブルを強化して、低リソースのビューをさらに疎外することで、情報の平等性を損なう可能性があります。

要約(オリジナル)

With Retrieval Augmented Generation (RAG), Large Language Models (LLMs) are playing a pivotal role in information search and are being adopted globally. Although the multilingual capability of LLMs offers new opportunities to bridge the language barrier, do these capabilities translate into real-life scenarios where linguistic divide and knowledge conflicts between multilingual sources are known occurrences? In this paper, we studied LLM’s linguistic preference in a RAG-based information search setting. We found that LLMs displayed systemic bias towards information in the same language as the query language in both information retrieval and answer generation. Furthermore, in scenarios where there is little information in the language of the query, LLMs prefer documents in high-resource languages, reinforcing the dominant views. Such bias exists for both factual and opinion-based queries. Our results highlight the linguistic divide within multilingual LLMs in information search systems. The seemingly beneficial multilingual capability of LLMs may backfire on information parity by reinforcing language-specific information cocoons or filter bubbles further marginalizing low-resource views.

arxiv情報

著者 Nikhil Sharma,Kenton Murray,Ziang Xiao
発行日 2024-08-05 07:22:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク