要約
大規模言語モデル (LLM) の事実性は、トレーニング後のイベントが「未知」であるため、時間の経過とともに減衰する傾向があります。
モデルを最新の状態に保つ 1 つの方法は、事実の更新です。これは、モデル内の特定の単純な (アトミックな) ファクトを挿入、置換、または削除するタスクです。
このタスクを研究するために、WikiFactDiff を紹介します。WikiFactDiff は、2 つの日付の間の事実知識の進化を、新規、廃止、静的の 3 つのカテゴリに分類された単純な事実の集合として記述するデータセットです。
これら 3 種類の基本的な更新のさまざまな組み合わせから生じるいくつかの更新シナリオについて説明します。
事実は、主語、関係性、目的語のトリプルによって表されます。
実際、WikiFactDiff は、2021 年 1 月 4 日と 2023 年 2 月 27 日のウィキデータ知識ベースの状態を比較することによって構築されました。これらの事実には、更新アルゴリズムとその評価メトリクスの実行を可能にする言語化テンプレートとクローズ テストが付属しています。
zsRE や CounterFact などの他のデータセットとは異なり、WikiFactDiff は、置換、アーカイブ、新しいエンティティの挿入などのさまざまな更新シナリオを含む現実的な更新設定を構成します。
また、WikiFactDiff 上の既存の更新アルゴリズムの評価も紹介します。
要約(オリジナル)
The factuality of large language model (LLMs) tends to decay over time since events posterior to their training are ‘unknown’ to them. One way to keep models up-to-date could be factual update: the task of inserting, replacing, or removing certain simple (atomic) facts within the model. To study this task, we present WikiFactDiff, a dataset that describes the evolution of factual knowledge between two dates as a collection of simple facts divided into three categories: new, obsolete, and static. We describe several update scenarios arising from various combinations of these three types of basic update. The facts are represented by subject-relation-object triples; indeed, WikiFactDiff was constructed by comparing the state of the Wikidata knowledge base at 4 January 2021 and 27 February 2023. Those fact are accompanied by verbalization templates and cloze tests that enable running update algorithms and their evaluation metrics. Contrary to other datasets, such as zsRE and CounterFact, WikiFactDiff constitutes a realistic update setting that involves various update scenarios, including replacements, archival, and new entity insertions. We also present an evaluation of existing update algorithms on WikiFactDiff.
arxiv情報
著者 | Hichem Ammar Khodja,Frédéric Béchet,Quentin Brabant,Alexis Nasr,Gwénolé Lecorvé |
発行日 | 2024-03-21 12:45:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google