Is it Possible to Edit Large Language Models Robustly?

要約

大規模言語モデル (LLM) は、人間の行動を模倣するコミュニケーション型 AI の構築において極めて重要な役割を果たしてきましたが、効率的なカスタマイズという課題に直面しています。
この課題に取り組むために、最近の研究では、言語モデルの特定の記憶を操作し、関連する言語の生成を変更するモデル編集の領域を掘り下げています。
ただし、モデル編集の堅牢性については未解決の問題が残っています。
この研究は、編集方法の長所と限界を理解することを目的としており、それによってコミュニケーション型 AI の堅牢で現実的な適用を促進します。
具体的には、3 つの重要な研究課題に対処するために広範な分析を実施します。
Q1: 編集された LLM は、現実的な状況で一貫してコミュニケーション AI に似た動作をすることができますか?
Q2: プロンプトの言い換えにより、LLM は編集された知識記憶からどの程度逸脱しますか?
Q3: どのナレッジ機能が編集のパフォーマンスおよび堅牢性と相関していますか?
私たちの実験結果では、既存の編集方法と LLM の実際の応用との間に大きな差異があることが明らかになりました。
複雑かつ柔軟だが現実的なアプリケーションでは一般的な、言い換えられたプロンプトでは、編集のパフォーマンスが大幅に低下します。
さらに分析を進めると、一般的な知識ほど記憶に残りやすく、思い出しやすく、効果的に編集するのが難しいことがわかりました。

要約(オリジナル)

Large language models (LLMs) have played a pivotal role in building communicative AI to imitate human behaviors but face the challenge of efficient customization. To tackle this challenge, recent studies have delved into the realm of model editing, which manipulates specific memories of language models and changes the related language generation. However, the robustness of model editing remains an open question. This work seeks to understand the strengths and limitations of editing methods, thus facilitating robust, realistic applications of communicative AI. Concretely, we conduct extensive analysis to address the three key research questions. Q1: Can edited LLMs behave consistently resembling communicative AI in realistic situations? Q2: To what extent does the rephrasing of prompts lead LLMs to deviate from the edited knowledge memory? Q3: Which knowledge features are correlated with the performance and robustness of editing? Our experimental results uncover a substantial disparity between existing editing methods and the practical application of LLMs. On rephrased prompts that are complex and flexible but common in realistic applications, the performance of editing experiences a significant decline. Further analysis shows that more popular knowledge is memorized better, easier to recall, and more challenging to edit effectively.

arxiv情報

著者 Xinbei Ma,Tianjie Ju,Jiyang Qiu,Zhuosheng Zhang,Hai Zhao,Lifeng Liu,Yulong Wang
発行日 2024-02-08 17:06:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク