On the Robustness of Editing Large Language Models

要約

大規模言語モデル (LLM) は、コミュニケーション型 AI の構築において極めて重要な役割を果たしてきましたが、効率的な更新という課題に直面しています。
モデル編集により、特定の知識記憶と言語生成の動作を再トレーニングせずに操作できるようになります。
ただし、モデル編集の堅牢性については未解決の問題が残っています。
この研究は、編集方法の長所と限界を理解し、コミュニケーション型 AI の実用化を促進することを目指しています。
私たちは 3 つの主要な研究課題に焦点を当てます。
RQ1: 編集された LLM は、現実的な状況において一貫してコミュニケーション AI に似た動作をすることができますか?
RQ2: プロンプトの言い換えにより、LLM は編集された知識記憶からどの程度逸脱しますか?
RQ3: どのナレッジ機能が編集のパフォーマンスおよび堅牢性と相関していますか?
私たちの実証研究により、既存の編集方法と LLM の実際の応用との間に大きな差異があることが明らかになりました。
柔軟ではあるが現実のアプリケーションでは一般的な、言い換えられたプロンプトでは、編集のパフォーマンスが大幅に低下します。
さらに分析を進めると、一般的な知識ほど記憶に残りやすく、思い出しやすく、効果的に編集するのが難しいことがわかりました。
コードは https://github.com/xbmxb/edit_analysis で公開されています。

要約(オリジナル)

Large language models (LLMs) have played a pivotal role in building communicative AI, yet they encounter the challenge of efficient updates. Model editing enables the manipulation of specific knowledge memories and the behavior of language generation without retraining. However, the robustness of model editing remains an open question. This work seeks to understand the strengths and limitations of editing methods, facilitating practical applications of communicative AI. We focus on three key research questions. RQ1: Can edited LLMs behave consistently resembling communicative AI in realistic situations? RQ2: To what extent does the rephrasing of prompts lead LLMs to deviate from the edited knowledge memory? RQ3: Which knowledge features are correlated with the performance and robustness of editing? Our empirical studies uncover a substantial disparity between existing editing methods and the practical application of LLMs. On rephrased prompts that are flexible but common in realistic applications, the performance of editing experiences a significant decline. Further analysis shows that more popular knowledge is memorized better, easier to recall, and more challenging to edit effectively. Code is publicly available at https://github.com/xbmxb/edit_analysis .

arxiv情報

著者 Xinbei Ma,Tianjie Ju,Jiyang Qiu,Zhuosheng Zhang,Hai Zhao,Lifeng Liu,Yulong Wang
発行日 2024-10-25 13:24:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク