Editing Common Sense in Transformers

要約

Transformers でモデル パラメーターを直接編集すると、再トレーニングせずにオープンソースのトランスフォーマー ベースのモデルを更新できるようになります (Meng et al.、2023)。
しかし、これらの編集方法は、単一の正解を持つ百科事典的な知識についての記述に対してのみ評価されてきました。
複数の正解がある常識知識、たとえば、リンゴは緑または赤であるが透明ではないなどは研究されていませんが、変圧器の信頼性と有用性を高めるためには同様に不可欠です。
この論文では、常識的な判断がトランスフォーマーのローカライズされた編集可能なパラメータと因果関係があるかどうかを調査し、肯定的な答えを示します。
MEMIT 編集アルゴリズムを直接適用すると標準以下のパフォーマンスになることがわかり、編集トークンを変更し、レイヤー選択戦略 ($MEMIT_{CSK}$) を改善することで、常識的な領域でパフォーマンスが向上します。
$MEMIT_{CSK}$ を使用して編集された GPT-2 Large モデルと XL モデルは、PEP3k および 20Q データセットでの F1 スコアが 10.97% および 10.73% 向上し、最適に微調整されたベースラインを上回っています。
さらに、影響を受けていない近隣地域と影響を受けた近隣地域、影響を受けた言い換え、および影響を受けた推論課題を含む新しい評価データセットであるプローブ セットを提案します。
$MEMIT_{CSK}$ は指標全体で良好なパフォーマンスを示しますが、ベースラインを微調整すると、影響を受けない指標と影響を受ける指標の間に大きなトレードオフが見られます。
これらの結果は、モデルの直接編集を通じて常識に関するフィードバックをトランスフォーマーに組み込むための説得力のある将来の方向性を示唆しています。

要約(オリジナル)

Editing model parameters directly in Transformers makes updating open-source transformer-based models possible without re-training (Meng et al., 2023). However, these editing methods have only been evaluated on statements about encyclopedic knowledge with a single correct answer. Commonsense knowledge with multiple correct answers, e.g., an apple can be green or red but not transparent, has not been studied but is as essential for enhancing transformers’ reliability and usefulness. In this paper, we investigate whether commonsense judgments are causally associated with localized, editable parameters in Transformers, and we provide an affirmative answer. We find that directly applying the MEMIT editing algorithm results in sub-par performance and improve it for the commonsense domain by varying edit tokens and improving the layer selection strategy, i.e., $MEMIT_{CSK}$. GPT-2 Large and XL models edited using $MEMIT_{CSK}$ outperform best-fine-tuned baselines by 10.97% and 10.73% F1 scores on PEP3k and 20Q datasets. In addition, we propose a novel evaluation dataset, PROBE SET, that contains unaffected and affected neighborhoods, affected paraphrases, and affected reasoning challenges. $MEMIT_{CSK}$ performs well across the metrics while fine-tuning baselines show significant trade-offs between unaffected and affected metrics. These results suggest a compelling future direction for incorporating feedback about common sense into Transformers through direct model editing.

arxiv情報

著者 Anshita Gupta,Debanjan Mondal,Akshay Krishna Sheshadri,Wenlong Zhao,Xiang Lorraine Li,Sarah Wiegreffe,Niket Tandon
発行日 2023-10-26 15:38:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク