LLMs’ Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements

要約

読解 (RC) のタスクは、多くの場合、文脈ベースの質問応答 (QA) として実装され、言語モデルの自然言語理解 (NLU) 能力を評価するための主要な手段となります。
しかし、広範な世界知識が組み込まれた大規模言語モデル (LLM) に適用すると、この方法は欺瞞的になる可能性があります。
コンテキストが LLM の内部知識と一致している場合、モデルの答えがコンテキストの理解から生じたものなのか、LLM の内部情報から生じたものなのかを識別するのは困難です。
逆に、モデルの知識と矛盾するデータを使用すると、結果を歪める誤った傾向が生じます。
この問題に対処するには、架空の事実や実体に基づいた架空のデータに対して RC を使用することをお勧めします。
このタスクはモデルの世界知識から完全に独立しているため、パラメトリック知識の干渉なしに LLM の言語能力を評価できます。
このような架空のデータで ChatGPT、GPT-4、LLaMA 2、Mixtral をテストすることで、代替の仮説的シナリオの観点から考えることを含む、現在の LLM に課題を提起するある種の言語現象が明らかになります。
すべてのモデルは単純な肯定および否定のコンテキストを高精度で処理しますが、モーダルおよび条件付きのコンテキストを扱う場合はエラーが発生しやすくなります。
重要なことに、これらの現象は、知識の衝突に対する LLM の脆弱性を再び引き起こす原因にもなります。
特に、一部のモデルは、肯定的文脈と否定的文脈における知識の衝突によって実質的に影響を受けないことが証明されていますが、より意味的に関与したモーダル環境や条件環境に直面すると、テキストを内部知識から分離できないことがよくあります。

要約(オリジナル)

The task of reading comprehension (RC), often implemented as context-based question answering (QA), provides a primary means to assess language models’ natural language understanding (NLU) capabilities. Yet, when applied to large language models (LLMs) with extensive built-in world knowledge, this method can be deceptive. If the context aligns with the LLMs’ internal knowledge, it is hard to discern whether the models’ answers stem from context comprehension or from LLMs’ internal information. Conversely, using data that conflicts with the models’ knowledge creates erroneous trends which distort the results. To address this issue, we suggest to use RC on imaginary data, based on fictitious facts and entities. This task is entirely independent of the models’ world knowledge, enabling us to evaluate LLMs’ linguistic abilities without the interference of parametric knowledge. Testing ChatGPT, GPT-4, LLaMA 2 and Mixtral on such imaginary data, we uncover a class of linguistic phenomena posing a challenge to current LLMs, involving thinking in terms of alternative, hypothetical scenarios. While all the models handle simple affirmative and negative contexts with high accuracy, they are much more prone to error when dealing with modal and conditional contexts. Crucially, these phenomena also trigger the LLMs’ vulnerability to knowledge-conflicts again. In particular, while some models prove virtually unaffected by knowledge conflicts in affirmative and negative contexts, when faced with more semantically involved modal and conditional environments, they often fail to separate the text from their internal knowledge.

arxiv情報

著者 Victoria Basmov,Yoav Goldberg,Reut Tsarfaty
発行日 2024-04-09 13:08:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク