Pioneering Reliable Assessment in Text-to-Image Knowledge Editing: Leveraging a Fine-Grained Dataset and an Innovative Criterion

要約

事前トレーニング中に、Text-to-Image (T2I) 拡散モデルは事実の知識をパラメータにエンコードします。
これらのパラメータ化された事実により、現実的な画像の生成が可能になりますが、時間の経過とともに時代遅れになる可能性があり、その結果、世界の現状が誤って伝えられることになります。
ナレッジ編集手法は、ターゲットを絞った方法でモデルのナレッジを更新することを目的としています。
しかし、不適切な編集データセットと信頼性の低い評価基準によってもたらされる二重の課題に直面し、T2I 知識編集の開発は、注入された知識を効果的に一般化する際に困難に直面しています。
この作業では、3 つのフェーズに包括的にまたがる T2I 知識編集フレームワークを設計します。まず、言い換えと複数オブジェクトのテストで構成されるデータセット \textbf{CAKE} をキュレートし、知識の一般化に関するより詳細な評価を可能にします。
第二に、現在の基準の下で誤って成功した画像を効果的に除外し、信頼性の高い編集評価を達成するための新しい基準 \textbf{適応 CLIP 閾値} を提案します。
最後に、T2I ナレッジ編集のためのシンプルだが効果的なアプローチである \textbf{MPE} を紹介します。
MPE はパラメータを調整するのではなく、コンディショニング テキスト プロンプトの古い部分を正確に認識して編集し、最新の知識に対応します。
MPE の直接的な実装 (コンテキスト内学習に基づく) は、以前のモデル エディターよりも優れた全体的なパフォーマンスを示します。
これらの取り組みにより、T2I 知識編集手法の忠実な評価がさらに促進されることを願っています。

要約(オリジナル)

During pre-training, the Text-to-Image (T2I) diffusion models encode factual knowledge into their parameters. These parameterized facts enable realistic image generation, but they may become obsolete over time, thereby misrepresenting the current state of the world. Knowledge editing techniques aim to update model knowledge in a targeted way. However, facing the dual challenges posed by inadequate editing datasets and unreliable evaluation criterion, the development of T2I knowledge editing encounter difficulties in effectively generalizing injected knowledge. In this work, we design a T2I knowledge editing framework by comprehensively spanning on three phases: First, we curate a dataset \textbf{CAKE}, comprising paraphrase and multi-object test, to enable more fine-grained assessment on knowledge generalization. Second, we propose a novel criterion, \textbf{adaptive CLIP threshold}, to effectively filter out false successful images under the current criterion and achieve reliable editing evaluation. Finally, we introduce \textbf{MPE}, a simple but effective approach for T2I knowledge editing. Instead of tuning parameters, MPE precisely recognizes and edits the outdated part of the conditioning text-prompt to accommodate the up-to-date knowledge. A straightforward implementation of MPE (Based on in-context learning) exhibits better overall performance than previous model editors. We hope these efforts can further promote faithful evaluation of T2I knowledge editing methods.

arxiv情報

著者 Hengrui Gu,Kaixiong Zhou,Yili Wang,Ruobing Wang,Xin Wang
発行日 2024-09-26 15:07:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク