Long-form evaluation of model editing

要約

現在、モデル編集の評価では、プロンプトの後の「次のいくつかのトークン」補完のみが使用されます。
結果として、これらの手法がより長い自然言語生成に与える影響はほとんどわかっていません。
長い形式の生成設定におけるモデル編集の有効性と影響を測定する新しい評価プロトコルであるモデル編集の長い形式の評価 (\textbf{\textit{LEME}}) を紹介します。
私たちのプロトコルは、機械による評価調査と、人間による評価とよく相関する分類器で構成されています。
重要なのは、私たちのプロトコルが(有効性、一般化、局所性、移植性を長い形式の設定に拡張するように設計されているにもかかわらず)以前の短い形式のメトリクスとほとんど関係がないことがわかり、この方法が新しい次元セットを導入していることを示しています。
モデルの編集方法を理解する。
このプロトコルを使用して、多くのモデル編集手法のベンチマークを行い、一部の手法 (ROME および MEMIT) は限られた範囲内で一貫した編集を行うのに優れたパフォーマンスを発揮するものの、他の手法に比べて事実のドリフトによる影響がはるかに大きいことなど、いくつかの結果を示します。
最後に、内部一貫性、語彙の凝集性、局所性の問題など、長い形式の生成設定における一般的な失敗モードを示す定性分析を示します。

要約(オリジナル)

Evaluations of model editing currently only use the `next few token’ completions after a prompt. As a result, the impact of these methods on longer natural language generation is largely unknown. We introduce long-form evaluation of model editing (\textbf{\textit{LEME}}) a novel evaluation protocol that measures the efficacy and impact of model editing in long-form generative settings. Our protocol consists of a machine-rated survey and a classifier which correlates well with human ratings. Importantly, we find that our protocol has very little relationship with previous short-form metrics (despite being designed to extend efficacy, generalization, locality, and portability into a long-form setting), indicating that our method introduces a novel set of dimensions for understanding model editing methods. Using this protocol, we benchmark a number of model editing techniques and present several findings including that, while some methods (ROME and MEMIT) perform well in making consistent edits within a limited scope, they suffer much more from factual drift than other methods. Finally, we present a qualitative analysis that illustrates common failure modes in long-form generative settings including internal consistency, lexical cohesion, and locality issues.

arxiv情報

著者 Domenic Rosati,Robie Gonzales,Jinkun Chen,Xuemin Yu,Melis Erkan,Yahya Kayani,Satya Deepika Chavatapalli,Frank Rudzicz,Hassan Sajjad
発行日 2024-02-14 18:45:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク