要約
拡散モデルは、オブジェクト中心のタスクの高品質で多様な合成データを生成するのに強力ですが、既存の方法は、視覚的な質問応答(VQA)や人間オブジェクトの相互作用(HOI)の推論などのシーン認識タスクと格闘しています。
マルチモーダルコンテキスト、つまり、テキストガイダンスクエリを伴う参照画像と一致する生成された画像にシーン属性を保持するため。
これに対処するために、マルチモーダルのコンテキストを考慮して、非常に多様な画像を生成する最初の拡散ベースの画像ジェネレーターであるHummingbirdを紹介します。
参照画像は、テキストガイダンスからのオブジェクトの相互作用や空間的関係など、シーンの属性を正確に保存することにより、高い忠実度を保証しながら。
Hummingbirdは、多様性を維持しながらテキストガイダンスに関連して生成された画像を参照画像のシーン属性を保持するために、策定されたグローバルなセマンティックおよび微細に粒度の一貫性報酬を同時に最適化する新しいマルチモーダルコンテキスト評価者を採用しています。
マルチモーダルコンテキストを考慮して、多様性と忠実度の両方を維持するタスクに対処する最初のモデルとして、MMEの知覚とボンガードHOIデータセットを組み込んだ新しいベンチマーク定式化を導入します。
ベンチマークの実験では、ハチドリが多様性を維持しながら優れた忠実度を達成することにより、すべての既存の方法を上回ることを示しており、複雑な視覚タスクでの堅牢なマルチモーダルコンテキストに整列した画像ジェネレーターとしてのハミングバードの可能性を検証します。
要約(オリジナル)
While diffusion models are powerful in generating high-quality, diverse synthetic data for object-centric tasks, existing methods struggle with scene-aware tasks such as Visual Question Answering (VQA) and Human-Object Interaction (HOI) Reasoning, where it is critical to preserve scene attributes in generated images consistent with a multimodal context, i.e. a reference image with accompanying text guidance query. To address this, we introduce Hummingbird, the first diffusion-based image generator which, given a multimodal context, generates highly diverse images w.r.t. the reference image while ensuring high fidelity by accurately preserving scene attributes, such as object interactions and spatial relationships from the text guidance. Hummingbird employs a novel Multimodal Context Evaluator that simultaneously optimizes our formulated Global Semantic and Fine-grained Consistency Rewards to ensure generated images preserve the scene attributes of reference images in relation to the text guidance while maintaining diversity. As the first model to address the task of maintaining both diversity and fidelity given a multimodal context, we introduce a new benchmark formulation incorporating MME Perception and Bongard HOI datasets. Benchmark experiments show Hummingbird outperforms all existing methods by achieving superior fidelity while maintaining diversity, validating Hummingbird’s potential as a robust multimodal context-aligned image generator in complex visual tasks.
arxiv情報
著者 | Minh-Quan Le,Gaurav Mittal,Tianjian Meng,A S M Iftekhar,Vishwas Suryanarayanan,Barun Patra,Dimitris Samaras,Mei Chen |
発行日 | 2025-02-07 18:32:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google