要約
知識編集(KE)は注目を集めていますが、現在のKEタスクは比較的単純なままです。
現在の評価フレームワークでは、多くの編集方法が非常に高いスコアを達成し、時には完璧に近づいています。
ただし、KEが実際のアプリケーションシナリオに統合する研究はほとんどありません(例:LLM-As-Asentに対する最近の関心)。
分析をサポートするために、斬新なスクリプトベースのベンチマークであるScedit(スクリプトベースの知識編集ベンチマーク)を紹介します。
トークンレベルとテキストレベルの評価方法を統合し、既存のKE技術を包括的に分析します。
このベンチマークは、アクションベース(「方法」型質問)評価に従来の事実ベース(「What」タイプの質問)評価を拡張します。
すべてのKEメソッドは、確立されたメトリックでパフォーマンスの低下を示し、テキストレベルのメトリックで課題に直面し、挑戦的なタスクを示していることがわかります。
当社のベンチマークは、https://github.com/asdfo123/sceditで入手できます。
要約(オリジナル)
Knowledge Editing (KE) has gained increasing attention, yet current KE tasks remain relatively simple. Under current evaluation frameworks, many editing methods achieve exceptionally high scores, sometimes nearing perfection. However, few studies integrate KE into real-world application scenarios (e.g., recent interest in LLM-as-agent). To support our analysis, we introduce a novel script-based benchmark — ScEdit (Script-based Knowledge Editing Benchmark) — which encompasses both counterfactual and temporal edits. We integrate token-level and text-level evaluation methods, comprehensively analyzing existing KE techniques. The benchmark extends traditional fact-based (‘What’-type question) evaluation to action-based (‘How’-type question) evaluation. We observe that all KE methods exhibit a drop in performance on established metrics and face challenges on text-level metrics, indicating a challenging task. Our benchmark is available at https://github.com/asdfo123/ScEdit.
arxiv情報
著者 | Xinye Li,Zunwen Zheng,Qian Zhang,Dekai Zhuang,Jiabao Kang,Liyan Xu,Qingbin Liu,Xi Chen,Zhiying Tu,Dianhui Chu,Dianbo Sui |
発行日 | 2025-06-02 14:05:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google