要約
拡散ベースの生成モデルは、テキストから画像間合成が大幅に進んでおり、印象的なテキスト理解とゼロショットの一般化を実証しています。
これらのモデルは、テキストのプロンプトに基づいてランダムノイズから画像を改良し、テキスト入力への最初の依存は、時間の経過とともに視覚的な忠実度を強化するためにシフトします。
この遷移は、静的モデルパラメーターが生成の異なるフェーズに最適に対処できない可能性があることを示唆しています。
動的なコンピュータービジョンタスクの適応性を向上させるために設計された新しいマルチエージェントシステムであるLGR-AD(エージェントディフューザーの学習グラフ表現)を紹介します。
LGR-ADは、生成プロセスを相互作用するエージェントの分散システムとしてモデル化し、それぞれがエキスパートサブモデルを表します。
これらのエージェントは、さまざまな条件に動的に適応し、関係とパフォーマンスメトリックをコードするグラフニューラルネットワークを介してコラボレーションします。
私たちのアプローチでは、最高$ k $の最大ツリーに基づく調整メカニズムを採用し、生成プロセスを最適化しています。
各エージェントの意思決定は、新しい損失関数を最小限に抑え、精度と多様性のバランスをとるメタモデルによって導かれます。
理論分析と広範な経験的評価は、LGR-ADがさまざまなベンチマークにわたって従来の拡散モデルよりも優れていることを示しており、複雑な画像生成タスクにおけるスケーラブルで柔軟なソリューションの可能性を強調しています。
コードはhttps://github.com/yousia/lgr_adで入手できます
要約(オリジナル)
Diffusion-based generative models have significantly advanced text-to-image synthesis, demonstrating impressive text comprehension and zero-shot generalization. These models refine images from random noise based on textual prompts, with initial reliance on text input shifting towards enhanced visual fidelity over time. This transition suggests that static model parameters might not optimally address the distinct phases of generation. We introduce LGR-AD (Learning Graph Representation of Agent Diffusers), a novel multi-agent system designed to improve adaptability in dynamic computer vision tasks. LGR-AD models the generation process as a distributed system of interacting agents, each representing an expert sub-model. These agents dynamically adapt to varying conditions and collaborate through a graph neural network that encodes their relationships and performance metrics. Our approach employs a coordination mechanism based on top-$k$ maximum spanning trees, optimizing the generation process. Each agent’s decision-making is guided by a meta-model that minimizes a novel loss function, balancing accuracy and diversity. Theoretical analysis and extensive empirical evaluations show that LGR-AD outperforms traditional diffusion models across various benchmarks, highlighting its potential for scalable and flexible solutions in complex image generation tasks. Code is available at: https://github.com/YousIA/LGR_AD
arxiv情報
著者 | Youcef Djenouri,Nassim Belmecheri,Tomasz Michalak,Jan Dubiński,Ahmed Nabil Belbachir,Anis Yazidi |
発行日 | 2025-05-15 15:32:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google