Hermit Kingdom Through the Lens of Multiple Perspectives: A Case Study of LLM Hallucination on North Korea

要約

大規模言語モデル (LLM) における幻覚は、特に誤った情報を広める可能性があるため、安全な展開にとって依然として大きな課題です。
既存のソリューションのほとんどは、モデルを信頼できる情報源と一致させることに重点を置くか、モデルが出力の信頼性 (またはその欠如) を伝える方法を改善することで、この課題に対処しています。
これらの対策はほとんどの状況で効果的かもしれませんが、より微妙なアプローチが必要なシナリオ、特に正確なデータへのアクセスが制限されている場合や、信頼できる情報源を特定することが困難な状況では不十分になる可能性があります。
この研究では、信頼できる情報源が極度に不足し、センセーショナルな虚偽が蔓延していることを特徴とする北朝鮮をケーススタディとして取り上げます。
私たちは、最もパフォーマンスの高い多言語 LLM と特定の言語ベースのモデルの一部が、地政学的に重要な利益を持つ国で話されている 3 つの言語で北朝鮮に関する情報を生成する方法を調査し、評価します: 英語 (米国、英国)、韓国語 (韓国)
)、および北京語 (中国)。
私たちの調査結果は大きな違いを明らかにしており、モデルと言語の選択が北朝鮮に対する大きく異なる理解につながる可能性があることを示唆しており、この国が直面している世界的な安全保障上の課題を考慮すると、これは重要な意味を持っています。

要約(オリジナル)

Hallucination in large language models (LLMs) remains a significant challenge for their safe deployment, particularly due to its potential to spread misinformation. Most existing solutions address this challenge by focusing on aligning the models with credible sources or by improving how models communicate their confidence (or lack thereof) in their outputs. While these measures may be effective in most contexts, they may fall short in scenarios requiring more nuanced approaches, especially in situations where access to accurate data is limited or determining credible sources is challenging. In this study, we take North Korea – a country characterised by an extreme lack of reliable sources and the prevalence of sensationalist falsehoods – as a case study. We explore and evaluate how some of the best-performing multilingual LLMs and specific language-based models generate information about North Korea in three languages spoken in countries with significant geo-political interests: English (United States, United Kingdom), Korean (South Korea), and Mandarin Chinese (China). Our findings reveal significant differences, suggesting that the choice of model and language can lead to vastly different understandings of North Korea, which has important implications given the global security challenges the country poses.

arxiv情報

著者 Eunjung Cho,Won Ik Cho,Soomin Seo
発行日 2025-01-10 14:08:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク