要約
継続的なトレーニング後のテキストから画像間拡散モデルを適応させて、個別のモデルのコストを負担することなく新しいタスクを学習しますが、トレーニング後の素朴なトレーニングは、事前に守られた知識を忘れ、ゼロショットの構成性を損ないます。
標準化された評価プロトコルが存在しないと、継続的なトレーニング後の研究が関連する研究を妨げていることがわかります。
これに対処するために、テキスト間モデルの継続的なトレーニング後の統一ベンチマークであるT2i-Conbenchを紹介します。
T2I-Conbenchは、アイテムのカスタマイズとドメインの強化という2つの実用的なシナリオに焦点を当て、4つの次元を分析します。
包括的な評価のために、自動化されたメトリック、ヒトプレーファレンスモデリング、視覚言語QAを組み合わせています。
3つの現実的なタスクシーケンスにわたって10の代表的な方法をベンチマークし、すべての面で優れているアプローチはないことがわかります。
共同「Oracle」トレーニングでさえ、すべてのタスクで成功せず、クロスタスクの一般化は未解決のままです。
すべてのデータセット、コード、および評価ツールをリリースして、テキスト間モデルの継続的なトレーニング後の研究を加速します。
要約(オリジナル)
Continual post-training adapts a single text-to-image diffusion model to learn new tasks without incurring the cost of separate models, but naive post-training causes forgetting of pretrained knowledge and undermines zero-shot compositionality. We observe that the absence of a standardized evaluation protocol hampers related research for continual post-training. To address this, we introduce T2I-ConBench, a unified benchmark for continual post-training of text-to-image models. T2I-ConBench focuses on two practical scenarios, item customization and domain enhancement, and analyzes four dimensions: (1) retention of generality, (2) target-task performance, (3) catastrophic forgetting, and (4) cross-task generalization. It combines automated metrics, human-preference modeling, and vision-language QA for comprehensive assessment. We benchmark ten representative methods across three realistic task sequences and find that no approach excels on all fronts. Even joint ‘oracle’ training does not succeed for every task, and cross-task generalization remains unsolved. We release all datasets, code, and evaluation tools to accelerate research in continual post-training for text-to-image models.
arxiv情報
著者 | Zhehao Huang,Yuhang Liu,Yixin Lou,Zhengbao He,Mingzhen He,Wenxing Zhou,Tao Li,Kehan Li,Zeyi Huang,Xiaolin Huang |
発行日 | 2025-05-22 16:31:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google