Is Bigger Edit Batch Size Always Better? — An Empirical Study on Model Editing with Llama-3

要約

この研究では、最新の大規模言語モデル Llama-3 に焦点を当てた、対象を絞ったモデル編集分析を紹介します。
正確なレイヤー介入のために設計された、人気のあるモデル編集手法である ROME、MEMIT、EMMET の有効性を調査します。
当社では、逐次編集、バッチ編集、および逐次バッチ編集と呼ばれるハイブリッド アプローチという 3 つの異なる戦略にわたる最大 4096 の編集を含む評価を通じて、対象を絞った編集に最も効果的なレイヤーを特定します。
私たちの調査結果は、編集バッチサイズを増やすと、同じ数の編集に対して小さい編集バッチを連続して使用する場合よりもモデルのパフォーマンスが大幅に低下する可能性があることを示しています。
これにより、逐次モデル編集はモデル編集方法のスケーリングにとって重要な要素であり、将来の研究はバッチ編集と逐次編集の両方を組み合わせた方法に焦点を当てる必要があると主張します。
この観察は、編集バッチ サイズの拡大を推進する現在のモデル編集方法に潜在的な限界があることを示唆しており、これがバッチ サイズとモデル編集パフォーマンスの最適化に関する将来の調査への道を開くことを期待しています。

要約(オリジナル)

This study presents a targeted model editing analysis focused on the latest large language model, Llama-3. We explore the efficacy of popular model editing techniques – ROME, MEMIT, and EMMET, which are designed for precise layer interventions. We identify the most effective layers for targeted edits through an evaluation that encompasses up to 4096 edits across three distinct strategies: sequential editing, batch editing, and a hybrid approach we call as sequential-batch editing. Our findings indicate that increasing edit batch-sizes may degrade model performance more significantly than using smaller edit batches sequentially for equal number of edits. With this, we argue that sequential model editing is an important component for scaling model editing methods and future research should focus on methods that combine both batched and sequential editing. This observation suggests a potential limitation in current model editing methods which push towards bigger edit batch sizes, and we hope it paves way for future investigations into optimizing batch sizes and model editing performance.

arxiv情報

著者 Junsang Yoon,Akshat Gupta,Gopala Anumanchipalli
発行日 2024-05-01 17:50:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク