要約
LLM は、さまざまなタイムスタンプで収集された大量のデータ スナップショットから知識を取得します。
彼らの知識は通常、静的ベンチマークを使用して評価されます。
ただし、事実の知識は一般に時間に敏感な変化にさらされるため、静的なベンチマークではそのようなケースに対処できません。
私たちは、LLM の知識とその時間依存性を、公開されている最新の知識グラフである Wikidata に対して動的に評価するアプローチを紹介します。
私たちは、24 のプライベートおよびオープンソース LLM の時間に敏感な知識と、古い事実を更新する際の 4 つの編集方法の有効性を評価します。
私たちの結果は、1) 最先端の LLM では時代遅れであることが重大な問題であることを示しています。
2) LLM は、質問プロンプトをわずかに変更してプロンプトを表示すると、一貫性のない回答を出力します。
3) 最先端のナレッジ編集アルゴリズムのパフォーマンスは非常に限られており、古いものや出力の不一致のケースを減らすことができないためです。
要約(オリジナル)
LLMs acquire knowledge from massive data snapshots collected at different timestamps. Their knowledge is then commonly evaluated using static benchmarks. However, factual knowledge is generally subject to time-sensitive changes, and static benchmarks cannot address those cases. We present an approach to dynamically evaluate the knowledge in LLMs and their time-sensitiveness against Wikidata, a publicly available up-to-date knowledge graph. We evaluate the time-sensitive knowledge in twenty-four private and open-source LLMs, as well as the effectiveness of four editing methods in updating the outdated facts. Our results show that 1) outdatedness is a critical problem across state-of-the-art LLMs; 2) LLMs output inconsistent answers when prompted with slight variations of the question prompt; and 3) the performance of the state-of-the-art knowledge editing algorithms is very limited, as they can not reduce the cases of outdatedness and output inconsistency.
arxiv情報
著者 | Seyed Mahed Mousavi,Simone Alghisi,Giuseppe Riccardi |
発行日 | 2024-06-12 13:44:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google