Model Editing with Canonical Examples

要約

標準的な例を使用したモデル編集を導入します。この設定では、(1) 目的の動作ごとに 1 つの学習例が提供され、(2) 評価は分布外でのみ実行され、(3) 初期モデルからの逸脱は厳密に制限されます。

標準的な例は、良い行動の単純な例 (例: モーリシャスの首都はポートルイスです)、または悪い行動 (例: 研究者のある側面は冷淡です) の単純な例です。
評価セットには、各行動のより複雑な例 (モーリシャスの首都を要求する段落など) が含まれています。3 つのデータセットを作成し、知識集約的な改善、社会的偏見の緩和、
そして構文上のエッジケース。
Pythia 言語モデルの実験では、LoRA が完全な微調整や MEMIT よりも優れていることがわかりました。
次に、Backpack 言語モデル アーキテクチャに目を向けます。これは、目標を絞った改善を可能にすることを目的としているためです。
バックパックは、モデルの出力ロジットを形成するために重み付けおよび合計されるセンス ベクトル (各単語のさまざまな使用法の分解) の大きなバンクを定義します。
我々は、標準的な例ごとにいくつかの ($\約 $10) センス ベクトルを選択して微調整するセンス微調整を提案します。これにより、他の微調整方法よりも優れたパフォーマンスを発揮することがわかります (例: 4.8% 対 0.3%)。
最後に、35 分の 1 小さいバックパックのセンス微調整による変更だけを使用した推論時間アンサンブルによって GPT-J-6B を改善しました。ある設定では、GPT-J 自体の編集よりも優れたパフォーマンスを発揮しました (4.1% 対 1.0%)。

要約(オリジナル)

We introduce model editing with canonical examples, a setting in which (1) a single learning example is provided per desired behavior, (2) evaluation is performed exclusively out-of-distribution, and (3) deviation from an initial model is strictly limited. A canonical example is a simple instance of good behavior, e.g., The capital of Mauritius is Port Louis) or bad behavior, e.g., An aspect of researchers is coldhearted). The evaluation set contains more complex examples of each behavior (like a paragraph in which the capital of Mauritius is called for.) We create three datasets and modify three more for model editing with canonical examples, covering knowledge-intensive improvements, social bias mitigation, and syntactic edge cases. In our experiments on Pythia language models, we find that LoRA outperforms full finetuning and MEMIT. We then turn to the Backpack language model architecture because it is intended to enable targeted improvement. The Backpack defines a large bank of sense vectors–a decomposition of the different uses of each word–which are weighted and summed to form the output logits of the model. We propose sense finetuning, which selects and finetunes a few ($\approx$ 10) sense vectors for each canonical example, and find that it outperforms other finetuning methods, e.g., 4.8% improvement vs 0.3%. Finally, we improve GPT-J-6B by an inference-time ensemble with just the changes from sense finetuning of a 35x smaller Backpack, in one setting outperforming editing GPT-J itself (4.1% vs 1.0%).

arxiv情報

著者 John Hewitt,Sarah Chen,Lanruo Lora Xie,Edward Adams,Percy Liang,Christopher D. Manning
発行日 2024-02-09 03:08:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク