要約
このペーパーでは、マルチモーダル大規模言語モデル (MLLM) の編集に焦点を当てます。
シングルモーダル LLM の編集と比較して、マルチモーダル モデルの編集はより困難であり、編集プロセスにおいてより高いレベルの精査と慎重な考慮が必要です。
この分野の研究を促進するために、私たちはマルチモーダル LLM を編集し、評価のための一連の革新的なメトリクスを確立するための、MMEdit と呼ばれる新しいベンチマークを構築しました。
私たちはさまざまなモデル編集ベースラインを含む包括的な実験を実施し、マルチモーダル LLM のさまざまなコンポーネントを編集した場合の影響を分析します。
経験的に、以前のベースラインではマルチモーダル LLM の編集をある程度実装できましたが、その効果はまだほとんど満足のいくものではなく、このタスクの潜在的な困難を示しています。
私たちの取り組みが NLP コミュニティに洞察を提供できることを願っています。
コードとデータセットは https://github.com/zjunlp/EasyEdit で入手できます。
要約(オリジナル)
In this paper, we focus on editing Multimodal Large Language Models (MLLMs). Compared to editing single-modal LLMs, multimodal model editing is more challenging, which demands a higher level of scrutiny and careful consideration in the editing process. To facilitate research in this area, we construct a new benchmark, dubbed MMEdit, for editing multimodal LLMs and establishing a suite of innovative metrics for evaluation. We conduct comprehensive experiments involving various model editing baselines and analyze the impact of editing different components for multimodal LLMs. Empirically, we notice that previous baselines can implement editing multimodal LLMs to some extent, but the effect is still barely satisfactory, indicating the potential difficulty of this task. We hope that our work can provide the NLP community with insights. Code and dataset are available in https://github.com/zjunlp/EasyEdit.
arxiv情報
著者 | Siyuan Cheng,Bozhong Tian,Qingbin Liu,Xi Chen,Yongheng Wang,Huajun Chen,Ningyu Zhang |
発行日 | 2024-04-18 15:46:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google