Fundamental Problems With Model Editing: How Should Rational Belief Revision Work in LLMs?

要約

モデル編集の問題は、言語モデルが時間の経過とともに世界に関する新しい事実をどのように学習するかに関係します。
モデル編集に関する実証的研究は広く注目を集めているが、モデル編集の概念的基盤は依然として不安定である。モデル編集は本質的に信念修正であり、何十年も簡潔な解決策が得られなかった哲学の名高い問題であるため、おそらく驚くことではない。
それでも、言語モデル内の知識を制御できる必要があるため、モデル編集には解決策が必要です。
この目標を念頭に置いて、この論文はモデル編集問題の標準的な定式化を批判し、モデル編集研究のための正式なテストベッドを提案します。
まず、(1) 問題の定義、(2) ベンチマークの開発、(3) そもそも LLM が編集可能な信念を持っていると仮定するという課題に基づいて、モデル編集に関する 12 の未解決の問題について説明します。
これらの課題の多くは、対処することが非常に困難です。
編集の広範な影響を判断し、事実間の確率的含意にラベルを付け、エージェント シミュレーターの信念を更新します。
次に、Wikidata に基づくモデル編集用の半合成データセットを導入します。これにより、理想化されたベイジアン エージェントによって与えられたラベルに対して編集を評価できます。
これにより、言語モデルの信念修正が望ましい認識基準にどのように達していないのかを正確に言うことができます。
私たちは、そのようなゴールドスタンダードと比較できる設定を探るさらなる研究を奨励します。
私たちのコードは、https://github.com/peterbhase/LLM-belief-revision で公開されています。

要約(オリジナル)

The model editing problem concerns how language models should learn new facts about the world over time. While empirical research on model editing has drawn widespread attention, the conceptual foundations of model editing remain shaky — perhaps unsurprisingly, since model editing is essentially belief revision, a storied problem in philosophy that has eluded succinct solutions for decades. Model editing nonetheless demands a solution, since we need to be able to control the knowledge within language models. With this goal in mind, this paper critiques the standard formulation of the model editing problem and proposes a formal testbed for model editing research. We first describe 12 open problems with model editing, based on challenges with (1) defining the problem, (2) developing benchmarks, and (3) assuming LLMs have editable beliefs in the first place. Many of these challenges are extremely difficult to address, e.g. determining far-reaching consequences of edits, labeling probabilistic entailments between facts, and updating beliefs of agent simulators. Next, we introduce a semi-synthetic dataset for model editing based on Wikidata, where we can evaluate edits against labels given by an idealized Bayesian agent. This enables us to say exactly how belief revision in language models falls short of a desirable epistemic standard. We encourage further research exploring settings where such a gold standard can be compared against. Our code is publicly available at: https://github.com/peterbhase/LLM-belief-revision

arxiv情報

著者 Peter Hase,Thomas Hofweber,Xiang Zhou,Elias Stengel-Eskin,Mohit Bansal
発行日 2024-06-27 17:33:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク