This Land is {Your, My} Land: Evaluating Geopolitical Biases in Language Models

要約

南沙諸島は中国、フィリピン、ベトナムに属しますか?
事前トレーニングされた大規模言語モデル (LLM) は、各請求国の言語 (中国語、タガログ語、またはベトナム語) で質問された場合、異なる答えを返す可能性があります。
これは、一貫して答える可能性が高い多言語を話す人間とは対照的です。
この論文では、LLM が異なる言語でクエリを実行すると、特定の地理的知識を一貫性なく思い出すことを示します。これを地政学的バイアスと呼んでいます。
対象を絞ったケーススタディとして、本質的に物議を醸し、多言語に関わる課題である領土紛争を取り上げます。
私たちは、251 の領土をカバーする領土紛争のデータセットである BorderLines を紹介します。各領土には、各主張国の言語 (合計 49 言語) による多肢選択式の質問のセットが関連付けられています。
また、さまざまな言語間での回答の偏りや一貫性を正確に定量化するための一連の評価指標も提案します。
次に、データセットとメトリクスでさまざまな多言語 LLM を評価し、その内部知識を調査し、提案されたメトリクスを使用して、これらのモデルがさまざまな言語でどのように応答するかに関する多数の矛盾を発見します。
最後に、地政学的バイアスを増幅または軽減することを目的としたいくつかの即時修正戦略を検討します。これは、LLM がいかに脆弱であるか、および相互作用コンテキストからの手がかりに応じて LLM がどのように応答を調整するかを強調します。

要約(オリジナル)

Do the Spratly Islands belong to China, the Philippines, or Vietnam? A pretrained large language model (LLM) may answer differently if asked in the languages of each claimant country: Chinese, Tagalog, or Vietnamese. This contrasts with a multilingual human, who would likely answer consistently. In this paper, we show that LLMs recall certain geographical knowledge inconsistently when queried in different languages–a phenomenon we term geopolitical bias. As a targeted case study, we consider territorial disputes, an inherently controversial and multilingual task. We introduce BorderLines, a dataset of territorial disputes which covers 251 territories, each associated with a set of multiple-choice questions in the languages of each claimant country (49 languages in total). We also propose a suite of evaluation metrics to precisely quantify bias and consistency in responses across different languages. We then evaluate various multilingual LLMs on our dataset and metrics to probe their internal knowledge and use the proposed metrics to discover numerous inconsistencies in how these models respond in different languages. Finally, we explore several prompt modification strategies, aiming to either amplify or mitigate geopolitical bias, which highlights how brittle LLMs are and how they tailor their responses depending on cues from the interaction context.

arxiv情報

著者 Bryan Li,Samar Haider,Chris Callison-Burch
発行日 2024-02-13 16:18:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク