要約
LLMSの多言語能力は、言語の壁を克服するための新しい機会を提供しますが、これらの能力は、言語的分裂と多言語ソース間の知識の対立が既知の発生である現実のシナリオに変換されますか?
この論文では、言語間のぼろきれベースの情報検索設定でLLMの言語的好みを研究しました。
LLMは、ドキュメント取得と回答生成の両方で、クエリ言語と同じ言語で情報に対する全身バイアスを表示することがわかりました。
さらに、クエリの言語に情報がないシナリオでは、LLMSは生成中に高リソース言語のドキュメントを好み、支配的な見解を強化する可能性があります。
このようなバイアスは、事実と意見に基づくクエリの両方に存在します。
私たちの結果は、情報検索システムの多言語LLM内の言語的格差を強調しています。
LLMSの一見有益な多言語能力は、言語固有の情報cocoを強化したり、低リソースビューをさらに疎外したりすることにより、情報パリティに逆火する可能性があります。
要約(オリジナル)
Although the multilingual capability of LLMs offers new opportunities to overcome the language barrier, do these capabilities translate into real-life scenarios where linguistic divide and knowledge conflicts between multilingual sources are known occurrences? In this paper, we studied LLM’s linguistic preference in a cross-language RAG-based information search setting. We found that LLMs displayed systemic bias towards information in the same language as the query language in both document retrieval and answer generation. Furthermore, in scenarios where no information is in the language of the query, LLMs prefer documents in high-resource languages during generation, potentially reinforcing the dominant views. Such bias exists for both factual and opinion-based queries. Our results highlight the linguistic divide within multilingual LLMs in information search systems. The seemingly beneficial multilingual capability of LLMs may backfire on information parity by reinforcing language-specific information cocoons or filter bubbles further marginalizing low-resource views.
arxiv情報
著者 | Nikhil Sharma,Kenton Murray,Ziang Xiao |
発行日 | 2025-02-11 18:17:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google