Understanding Knowledge Drift in LLMs through Misinformation

要約

大規模言語モデル (LLM) は多くのアプリケーションに革命をもたらし、デジタル エコシステムの不可欠な部分となっています。
ただし、特にこれらのモデルが誤った情報にさらされている場合、その信頼性は非常に重要になります。
私たちは主に、最先端の LLM が QnA シナリオで虚偽の情報に遭遇した場合に、事実の不正確さに対する感受性を分析します。この問題は、*ナレッジ ドリフト* と呼ばれる現象につながる可能性があり、LLM の信頼性を著しく損なうものです。
これらのモデル。
エントロピー、パープレキシティ、トークン確率のメトリクスに基づいて、モデルの応答の事実性と不確実性を評価します。
私たちの実験では、誤った情報にさらされたために質問が不正解になった場合、LLM の不確実性が最大 56.6% 増加する可能性があることが明らかになりました。
同時に、同じ誤った情報に繰り返しさらされると、モデルの不確実性が再び減少し(汚染されていないプロンプトに対する回答に対して -52.8%)、基礎となるモデルの信念が操作され、元の知識からのずれが生じる可能性があります。
これらの調査結果は、敵対的な入力に対する LLM の堅牢性と脆弱性に関する洞察を提供し、さまざまなドメインにわたってより信頼性の高い LLM アプリケーションを開発するための道を開きます。
コードは https://github.com/afastowski/knowledge_drift で入手できます。

要約(オリジナル)

Large Language Models (LLMs) have revolutionized numerous applications, making them an integral part of our digital ecosystem. However, their reliability becomes critical, especially when these models are exposed to misinformation. We primarily analyze the susceptibility of state-of-the-art LLMs to factual inaccuracies when they encounter false information in a QnA scenario, an issue that can lead to a phenomenon we refer to as *knowledge drift*, which significantly undermines the trustworthiness of these models. We evaluate the factuality and the uncertainty of the models’ responses relying on Entropy, Perplexity, and Token Probability metrics. Our experiments reveal that an LLM’s uncertainty can increase up to 56.6% when the question is answered incorrectly due to the exposure to false information. At the same time, repeated exposure to the same false information can decrease the models uncertainty again (-52.8% w.r.t. the answers on the untainted prompts), potentially manipulating the underlying model’s beliefs and introducing a drift from its original knowledge. These findings provide insights into LLMs’ robustness and vulnerability to adversarial inputs, paving the way for developing more reliable LLM applications across various domains. The code is available at https://github.com/afastowski/knowledge_drift.

arxiv情報

著者 Alina Fastowski,Gjergji Kasneci
発行日 2024-09-11 08:11:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク