Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

要約

近年、マルチモーダル理解モデルと画像生成モデルの両方が目覚ましい進歩を遂げている。それぞれの成功にもかかわらず、この2つの領域は独立して進化し、異なるアーキテクチャパラダイムをもたらした:自己回帰ベースのアーキテクチャがマルチモーダル理解を支配してきたのに対し、拡散ベースのモデルは画像生成の基礎となってきた。近年、これらのタスクを統合する統一的なフレームワークの開発に対する関心が高まっている。GPT-4oの新機能の登場はこの傾向を例証するものであり、統合の可能性を浮き彫りにしている。しかし、この2つの領域にはアーキテクチャ上の違いがあり、大きな課題となっている。統一に向けた現在の取り組みを明確に概観するために、将来の研究の指針となるような包括的なサーベイを行う。まず、マルチモーダル理解とテキスト画像生成モデルの基礎概念と最近の進歩を紹介する。次に、既存の統一モデルをレビューし、拡散ベース、自己回帰ベース、自己回帰と拡散メカニズムを融合したハイブリッドアプローチの3つの主要なアーキテクチャパラダイムに分類する。それぞれのカテゴリーについて、関連する研究によって導入された構造設計とイノベーションを分析する。さらに、統一モデル用に調整されたデータセットとベンチマークをまとめ、将来の探求のためのリソースを提供する。最後に、トークン化戦略、クロスモーダルな注意、データなど、この黎明期の分野が直面する主要な課題について議論する。この分野はまだ初期段階であるため、急速な進歩が予想され、この調査は定期的に更新される予定である。私たちの目標は、さらなる研究を促し、コミュニティに貴重な参考資料を提供することである。この調査に関連する参考文献は、近日中にGitHubで公開される予定である。

要約(オリジナル)

Recent years have seen remarkable progress in both multimodal understanding models and image generation models. Despite their respective successes, these two domains have evolved independently, leading to distinct architectural paradigms: While autoregressive-based architectures have dominated multimodal understanding, diffusion-based models have become the cornerstone of image generation. Recently, there has been growing interest in developing unified frameworks that integrate these tasks. The emergence of GPT-4o’s new capabilities exemplifies this trend, highlighting the potential for unification. However, the architectural differences between the two domains pose significant challenges. To provide a clear overview of current efforts toward unification, we present a comprehensive survey aimed at guiding future research. First, we introduce the foundational concepts and recent advancements in multimodal understanding and text-to-image generation models. Next, we review existing unified models, categorizing them into three main architectural paradigms: diffusion-based, autoregressive-based, and hybrid approaches that fuse autoregressive and diffusion mechanisms. For each category, we analyze the structural designs and innovations introduced by related works. Additionally, we compile datasets and benchmarks tailored for unified models, offering resources for future exploration. Finally, we discuss the key challenges facing this nascent field, including tokenization strategy, cross-modal attention, and data. As this area is still in its early stages, we anticipate rapid advancements and will regularly update this survey. Our goal is to inspire further research and provide a valuable reference for the community. The references associated with this survey will be available on GitHub soon.

arxiv情報

著者 Xinjie Zhang,Jintao Guo,Shanshan Zhao,Minghao Fu,Lunhao Duan,Guo-Hua Wang,Qing-Guo Chen,Zhao Xu,Weihua Luo,Kaifu Zhang
発行日 2025-05-05 11:18:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities はコメントを受け付けていません

Geometric Knowledge-Guided Localized Global Distribution Alignment for Federated Learning

要約

連合学習におけるデータの不均一性は、局所分布と大域分布の間の著しい不整合によって特徴付けられ、局所最適化の方向性の発散をもたらし、大域的なモデル学習を妨げる。既存の研究は、主に局所更新や大域的集約の最適化に焦点を当てているが、これらの間接的なアプローチは、特にラベルスキューとドメインスキューが共存するシナリオにおいて、高度に不均一なデータ分布を扱う際に不安定性を示す。これに対処するため、我々は、大域的な埋め込み分布を局所的にシミュレートすることを中心とした、幾何学的ガイド付きデータ生成法を提案する。まず埋め込み分布の幾何学的形状の概念を紹介し、次にプライバシー制約の下で大域的な幾何学的形状を得るという課題に取り組む。その後、大域的な幾何学的形状を利用して新しいサンプルの生成を導き、理想的な大域的分布により近い近似を可能にするGGEURを提案する。単一ドメインシナリオでは、モデルの汎化を強化するために、大域的な幾何学的形状に基づいてサンプルを増強し、マルチドメインシナリオでは、ドメイン間の大域的分布をシミュレートするために、クラスプロトタイプをさらに採用する。広範な実験結果は、ラベルの歪み、ドメインの歪み、およびそれらが共存するシナリオを含む、高度に異種なデータの取り扱いにおいて、我々の手法が既存のアプローチの性能を大幅に向上させることを示している。コード公開:https://github.com/WeiDai-David/2025CVPR_GGEUR

要約(オリジナル)

Data heterogeneity in federated learning, characterized by a significant misalignment between local and global distributions, leads to divergent local optimization directions and hinders global model training. Existing studies mainly focus on optimizing local updates or global aggregation, but these indirect approaches demonstrate instability when handling highly heterogeneous data distributions, especially in scenarios where label skew and domain skew coexist. To address this, we propose a geometry-guided data generation method that centers on simulating the global embedding distribution locally. We first introduce the concept of the geometric shape of an embedding distribution and then address the challenge of obtaining global geometric shapes under privacy constraints. Subsequently, we propose GGEUR, which leverages global geometric shapes to guide the generation of new samples, enabling a closer approximation to the ideal global distribution. In single-domain scenarios, we augment samples based on global geometric shapes to enhance model generalization; in multi-domain scenarios, we further employ class prototypes to simulate the global distribution across domains. Extensive experimental results demonstrate that our method significantly enhances the performance of existing approaches in handling highly heterogeneous data, including scenarios with label skew, domain skew, and their coexistence. Code published at: https://github.com/WeiDai-David/2025CVPR_GGEUR

arxiv情報

著者 Yanbiao Ma,Wei Dai,Wenke Huang,Jiayi Chen
発行日 2025-05-05 11:38:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | Geometric Knowledge-Guided Localized Global Distribution Alignment for Federated Learning はコメントを受け付けていません

RGBX-DiffusionDet: A Framework for Multi-Modal RGB-X Object Detection Using DiffusionDet

要約

RGBX-DiffusionDetは、DiffusionDetモデルを拡張し、適応的マルチモーダルエンコーダを介して、異種2次元データ(X)をRGB画像と融合させる物体検出フレームワークである。クロスモーダル相互作用を可能にするために、我々は畳み込みブロック注意モジュール(DCR-CBAM)内の動的チャネル削減を設計し、顕著なチャネル特徴を動的に強調することにより、サブネットワーク間のクロストークを容易にする。さらに、動的マルチレベル集約ブロック(DMLAB)を提案し、適応的マルチスケール融合により空間特徴表現を洗練する。最後に、チャネルの顕著性と空間選択性を強制する新しい正則化ロスを導入し、コンパクトで識別性の高い特徴埋め込みを実現する。RGB-Depth(KITTI)、新しい注釈付きRGB-Polarimetricデータセット、RGB-Infrared(M$^3$FD)ベンチマークデータセットを用いた広範な実験を行った。モジュラーアーキテクチャは元のデコーディングの複雑さを維持し、効率性を確保する。これらの結果は、提案するRGBX-DiffusionDetを柔軟なマルチモーダル物体検出アプローチとして確立し、拡散ベースの検出パイプラインに多様な2Dセンシングモダリティを統合するための新たな洞察を提供する。

要約(オリジナル)

This work introduces RGBX-DiffusionDet, an object detection framework extending the DiffusionDet model to fuse the heterogeneous 2D data (X) with RGB imagery via an adaptive multimodal encoder. To enable cross-modal interaction, we design the dynamic channel reduction within a convolutional block attention module (DCR-CBAM), which facilitates cross-talk between subnetworks by dynamically highlighting salient channel features. Furthermore, the dynamic multi-level aggregation block (DMLAB) is proposed to refine spatial feature representations through adaptive multiscale fusion. Finally, novel regularization losses that enforce channel saliency and spatial selectivity are introduced, leading to compact and discriminative feature embeddings. Extensive experiments using RGB-Depth (KITTI), a novel annotated RGB-Polarimetric dataset, and RGB-Infrared (M$^3$FD) benchmark dataset were conducted. We demonstrate consistent superiority of the proposed approach over the baseline RGB-only DiffusionDet. The modular architecture maintains the original decoding complexity, ensuring efficiency. These results establish the proposed RGBX-DiffusionDet as a flexible multimodal object detection approach, providing new insights into integrating diverse 2D sensing modalities into diffusion-based detection pipelines.

arxiv情報

著者 Eliraz Orfaig,Inna Stainvas,Igal Bilik
発行日 2025-05-05 11:39:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | RGBX-DiffusionDet: A Framework for Multi-Modal RGB-X Object Detection Using DiffusionDet はコメントを受け付けていません

GRAPHITE: Graph-Based Interpretable Tissue Examination for Enhanced Explainability in Breast Cancer Histopathology

要約

医療組織病理学における説明可能なAI(XAI)は、がん診断における深層学習モデルの解釈可能性と臨床的信頼性を高めるために不可欠である。しかし、これらのモデルのブラックボックス的な性質は、しばしば臨床的な採用を制限する。我々はGRAPHITE(Graph-based Interpretable Tissue Examination)を紹介する。GRAPHITEは、乳がん組織マイクロアレイ(TMA)解析のために設計された、その場限りの説明可能なフレームワークである。GRAPHITEはマルチスケールアプローチを採用しており、様々な拡大レベルでパッチを抽出し、階層的なグラフを構築し、スケール依存の特徴を捉えるためにSAN(scalewise attention)を用いたグラフアテンションネットワーク(GAT)を利用する。140の腫瘍TMAコアと140の良性サンプルを作成した4つの良性ホールスライド画像でモデルをトレーニングし、53の病理学者が注釈を付けたTMAサンプルでテストした。GRAPHITEは従来のXAI法を凌駕し、平均平均精度(mAP)0.56、受信者動作特性曲線下面積(AUROC)0.94、閾値ロバスト性(ThR)0.70を達成し、このモデルが閾値の広い範囲で高い性能を維持していることを示した。臨床的有用性において、GRAPHITEは4.17e+5という最高の決定曲線下面積(AUDC)を達成し、閾値全体にわたって信頼性の高い決定支援を示している。これらの結果は、GRAPHITEが計算病理学において臨床的に価値のあるツールであり、病理医の診断推論に沿った解釈可能な可視化を提供し、精密医療をサポートする可能性を強調するものである。

要約(オリジナル)

Explainable AI (XAI) in medical histopathology is essential for enhancing the interpretability and clinical trustworthiness of deep learning models in cancer diagnosis. However, the black-box nature of these models often limits their clinical adoption. We introduce GRAPHITE (Graph-based Interpretable Tissue Examination), a post-hoc explainable framework designed for breast cancer tissue microarray (TMA) analysis. GRAPHITE employs a multiscale approach, extracting patches at various magnification levels, constructing an hierarchical graph, and utilising graph attention networks (GAT) with scalewise attention (SAN) to capture scale-dependent features. We trained the model on 140 tumour TMA cores and four benign whole slide images from which 140 benign samples were created, and tested it on 53 pathologist-annotated TMA samples. GRAPHITE outperformed traditional XAI methods, achieving a mean average precision (mAP) of 0.56, an area under the receiver operating characteristic curve (AUROC) of 0.94, and a threshold robustness (ThR) of 0.70, indicating that the model maintains high performance across a wide range of thresholds. In clinical utility, GRAPHITE achieved the highest area under the decision curve (AUDC) of 4.17e+5, indicating reliable decision support across thresholds. These results highlight GRAPHITE’s potential as a clinically valuable tool in computational pathology, providing interpretable visualisations that align with the pathologists’ diagnostic reasoning and support precision medicine.

arxiv情報

著者 Raktim Kumar Mondol,Ewan K. A. Millar,Peter H. Graham,Lois Browne,Arcot Sowmya,Erik Meijering
発行日 2025-05-05 11:44:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV | GRAPHITE: Graph-Based Interpretable Tissue Examination for Enhanced Explainability in Breast Cancer Histopathology はコメントを受け付けていません

DELTA: Dense Depth from Events and LiDAR using Transformer’s Attention

要約

イベントカメラとLiDARはそれぞれ、照明の変化の非同期検出と、一定速度でのまばらだが正確な深度情報という、相補的だが異なるデータを提供する。今日に至るまで、これら2つのモダリティの組み合わせを検討した研究はほとんどない。本稿では、イベントデータとLiDARデータを融合し、高密度な深度マップを推定するための、ニューラルネットワークベースの新しい手法を提案する。我々のアーキテクチャであるDELTAは、イベントとLiDARデータ内およびデータ間の空間的・時間的関係をモデル化するために、自己注意と相互注意の概念を利用する。徹底的な評価の後、我々はDELTAがイベントベースの深度推定問題における新たな技術的地位を確立し、従来のSOTAと比較して近距離で最大4倍まで誤差を低減できることを実証する。

要約(オリジナル)

Event cameras and LiDARs provide complementary yet distinct data: respectively, asynchronous detections of changes in lighting versus sparse but accurate depth information at a fixed rate. To this day, few works have explored the combination of these two modalities. In this article, we propose a novel neural-network-based method for fusing event and LiDAR data in order to estimate dense depth maps. Our architecture, DELTA, exploits the concepts of self- and cross-attention to model the spatial and temporal relations within and between the event and LiDAR data. Following a thorough evaluation, we demonstrate that DELTA sets a new state of the art in the event-based depth estimation problem, and that it is able to reduce the errors up to four times for close ranges compared to the previous SOTA.

arxiv情報

著者 Vincent Brebion,Julien Moreau,Franck Davoine
発行日 2025-05-05 11:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, I.4.8 | DELTA: Dense Depth from Events and LiDAR using Transformer’s Attention はコメントを受け付けていません

SiMHand: Mining Similar Hands for Large-Scale 3D Hand Pose Pre-training

要約

本論文では、SimHandと呼ばれる、類似した手の特徴を共有する野生の手画像から3Dハンドポーズ推定を事前学習するためのフレームワークを紹介する。大規模な画像を用いた事前学習は、様々なタスクにおいて有望な結果を達成しているが、3Dハンドポーズ事前学習のための先行手法は、野生のビデオからアクセス可能な多様なハンド画像の可能性を十分に活用していない。本研究では、スケーラブルな事前学習を実現するために、まず、実写映像から膨大な数の手指画像を収集し、コントラスト学習を用いた事前学習手法を設計する。具体的には、100DOHやEgo4Dなどの最近の人間中心の動画から200万枚以上の手画像を収集する。これらの画像から識別情報を抽出するために、我々は手の類似性(手のポーズが似ている非同一サンプルのペア)に注目する。そして、類似した手のペアを特徴空間に近づける新しい対照学習法を提案する。本手法は、類似サンプルから学習するだけでなく、サンプル間距離に基づいて対比学習損失を適応的に重み付けし、さらなる性能向上をもたらす。我々の実験は、我々の手法が、データ増強により1つの画像から正対を切実に生成する従来の対比学習アプローチを凌駕することを実証する。様々なデータセットにおいて、FreiHandで15%、DexYCBで10%、AssemblyHandsで4%という、最先端の手法(PeCLR)に対する大幅な改善を達成した。 我々のコードはhttps://github.com/ut-vision/SiMHand。

要約(オリジナル)

We present a framework for pre-training of 3D hand pose estimation from in-the-wild hand images sharing with similar hand characteristics, dubbed SimHand. Pre-training with large-scale images achieves promising results in various tasks, but prior methods for 3D hand pose pre-training have not fully utilized the potential of diverse hand images accessible from in-the-wild videos. To facilitate scalable pre-training, we first prepare an extensive pool of hand images from in-the-wild videos and design our pre-training method with contrastive learning. Specifically, we collect over 2.0M hand images from recent human-centric videos, such as 100DOH and Ego4D. To extract discriminative information from these images, we focus on the similarity of hands: pairs of non-identical samples with similar hand poses. We then propose a novel contrastive learning method that embeds similar hand pairs closer in the feature space. Our method not only learns from similar samples but also adaptively weights the contrastive learning loss based on inter-sample distance, leading to additional performance gains. Our experiments demonstrate that our method outperforms conventional contrastive learning approaches that produce positive pairs sorely from a single image with data augmentation. We achieve significant improvements over the state-of-the-art method (PeCLR) in various datasets, with gains of 15% on FreiHand, 10% on DexYCB, and 4% on AssemblyHands. Our code is available at https://github.com/ut-vision/SiMHand.

arxiv情報

著者 Nie Lin,Takehiko Ohkawa,Yifei Huang,Mingfang Zhang,Minjie Cai,Ming Li,Ryosuke Furuta,Yoichi Sato
発行日 2025-05-05 12:16:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | SiMHand: Mining Similar Hands for Large-Scale 3D Hand Pose Pre-training はコメントを受け付けていません

Detect, Classify, Act: Categorizing Industrial Anomalies with Multi-Modal Large Language Models

要約

最近の工業用視覚的異常検出の進歩により、高速な推論速度を維持しながら、異常領域の識別とセグメンテーションにおいて卓越した性能が実証されている。しかしながら、異常の分類(異なるタイプの異常を区別すること)は、実世界の検査タスクにおいて非常に重要であるにもかかわらず、ほとんど未解明のままである。このギャップに対処するために、我々は、LLMベースの新しい異常分類パイプラインであるVELMを提案する。推論速度が非常に重要であることを考慮し、我々はまず、観察の正常性を評価するために、ビジョンエキスパートとして教師なし異常検出法を適用する。異常が検出された場合、LLMはそのタイプを分類する。異常分類モデルの開発と評価における重要な課題は、既存のデータセットにおける異常クラスの正確な注釈の欠如である。この限界に対処するために、我々は MVTec-AC と VisA-AC を導入する。MVTec-AC と VisA-AC は、広く使用されている MVTec-AD と VisA データセットの改良版であり、厳密な評価のために正確な異常クラスラベルを含んでいる。我々のアプローチはMVTec-ADで80.4%、MVTec-ACで84%という、従来のベースラインを5%上回る最新の異常分類精度を達成し、異常の理解と分類におけるVELMの有効性を実証した。我々は、我々の方法論とベンチマークが、異常分類のさらなる研究を刺激し、異常の検出と包括的な異常の特徴付けの間のギャップを埋める一助となることを願っている。

要約(オリジナル)

Recent advances in visual industrial anomaly detection have demonstrated exceptional performance in identifying and segmenting anomalous regions while maintaining fast inference speeds. However, anomaly classification-distinguishing different types of anomalies-remains largely unexplored despite its critical importance in real-world inspection tasks. To address this gap, we propose VELM, a novel LLM-based pipeline for anomaly classification. Given the critical importance of inference speed, we first apply an unsupervised anomaly detection method as a vision expert to assess the normality of an observation. If an anomaly is detected, the LLM then classifies its type. A key challenge in developing and evaluating anomaly classification models is the lack of precise annotations of anomaly classes in existing datasets. To address this limitation, we introduce MVTec-AC and VisA-AC, refined versions of the widely used MVTec-AD and VisA datasets, which include accurate anomaly class labels for rigorous evaluation. Our approach achieves a state-of-the-art anomaly classification accuracy of 80.4% on MVTec-AD, exceeding the prior baselines by 5%, and 84% on MVTec-AC, demonstrating the effectiveness of VELM in understanding and categorizing anomalies. We hope our methodology and benchmark inspire further research in anomaly classification, helping bridge the gap between detection and comprehensive anomaly characterization.

arxiv情報

著者 Sassan Mokhtar,Arian Mousakhan,Silvio Galesso,Jawad Tayyub,Thomas Brox
発行日 2025-05-05 13:08:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Detect, Classify, Act: Categorizing Industrial Anomalies with Multi-Modal Large Language Models はコメントを受け付けていません

DeepSparse: A Foundation Model for Sparse-View CBCT Reconstruction

要約

コーンビームCT(CBCT)は、医療分野において重要な3次元画像技術であるが、高画質撮影に必要な高い放射線被曝は、特に脆弱な人々にとって重大な懸念となっている。スパースビュー再構成は、画質を維持しながらX線投影回数を減らすことで被曝を低減するが、既存の手法は、高い計算負荷や異なるデータセットへの汎用性の低さなどの課題に直面している。これらの限界を克服するために、我々は、DiCE(Dual-Dimensional Cross-Scale Embedding)を特徴とする、スパースビューCBCT再構成のための最初の基礎モデルであるDeepSparseを提案する。DiCEは、マルチビュー2D特徴とマルチスケール3D特徴を統合する新しいネットワークである。さらに、HyViP(Hybrid View Sampling Pretraining)フレームワークを導入し、スパースビューとデンスビューの両方の投影による大規模なデータセットでモデルを事前学習する。広範な実験とアブレーション研究により、我々の提案するDeepSparseが、最新の手法と比較して優れた再構成品質を達成し、より安全で効率的なCBCTイメージングへの道を開くことが実証された。

要約(オリジナル)

Cone-beam computed tomography (CBCT) is a critical 3D imaging technology in the medical field, while the high radiation exposure required for high-quality imaging raises significant concerns, particularly for vulnerable populations. Sparse-view reconstruction reduces radiation by using fewer X-ray projections while maintaining image quality, yet existing methods face challenges such as high computational demands and poor generalizability to different datasets. To overcome these limitations, we propose DeepSparse, the first foundation model for sparse-view CBCT reconstruction, featuring DiCE (Dual-Dimensional Cross-Scale Embedding), a novel network that integrates multi-view 2D features and multi-scale 3D features. Additionally, we introduce the HyViP (Hybrid View Sampling Pretraining) framework, which pretrains the model on large datasets with both sparse-view and dense-view projections, and a two-step finetuning strategy to adapt and refine the model for new datasets. Extensive experiments and ablation studies demonstrate that our proposed DeepSparse achieves superior reconstruction quality compared to state-of-the-art methods, paving the way for safer and more efficient CBCT imaging.

arxiv情報

著者 Yiqun Lin,Hualiang Wang,Jixiang Chen,Jiewen Yang,Jiarong Guo,Xiaomeng Li
発行日 2025-05-05 13:14:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV | DeepSparse: A Foundation Model for Sparse-View CBCT Reconstruction はコメントを受け付けていません

MCCD: Multi-Agent Collaboration-based Compositional Diffusion for Complex Text-to-Image Generation

要約

拡散モデルは、テキストから画像への生成において優れた性能を示してきた。しかしながら、既存の手法は、複数のオブジェクト、特性、関係を含む複雑なプロンプトを扱う際に、しばしば性能のボトルネックに悩まされる。そこで我々は、複雑なシーンのテキスト画像生成のためのマルチエージェントコラボレーションに基づく構文拡散(MCCD)を提案する。具体的には、様々なシーン要素を効果的に抽出するためにMLLMを利用し、異なるタスクを持つ複数のエージェントから構成されるエージェントシステムを生成するマルチエージェントコラボレーションに基づくシーン解析モジュールを設計する。さらに、階層的構文拡散は、ガウシアンマスクとフィルタリングを利用し、バウンディングボックス領域を精緻化し、領域強調によりオブジェクトを強調することで、複雑なシーンを正確かつ忠実に生成する。包括的な実験により、我々のMCCDが、訓練不要の方法でベースラインモデルの性能を大幅に向上させ、複雑なシーン生成において実質的な優位性を提供することが実証された。

要約(オリジナル)

Diffusion models have shown excellent performance in text-to-image generation. Nevertheless, existing methods often suffer from performance bottlenecks when handling complex prompts that involve multiple objects, characteristics, and relations. Therefore, we propose a Multi-agent Collaboration-based Compositional Diffusion (MCCD) for text-to-image generation for complex scenes. Specifically, we design a multi-agent collaboration-based scene parsing module that generates an agent system comprising multiple agents with distinct tasks, utilizing MLLMs to extract various scene elements effectively. In addition, Hierarchical Compositional diffusion utilizes a Gaussian mask and filtering to refine bounding box regions and enhance objects through region enhancement, resulting in the accurate and high-fidelity generation of complex scenes. Comprehensive experiments demonstrate that our MCCD significantly improves the performance of the baseline models in a training-free manner, providing a substantial advantage in complex scene generation.

arxiv情報

著者 Mingcheng Li,Xiaolu Hou,Ziyang Liu,Dingkang Yang,Ziyun Qian,Jiawei Chen,Jinjie Wei,Yue Jiang,Qingyao Xu,Lihua Zhang
発行日 2025-05-05 13:50:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | MCCD: Multi-Agent Collaboration-based Compositional Diffusion for Complex Text-to-Image Generation はコメントを受け付けていません

FissionVAE: Federated Non-IID Image Generation with Latent Space and Decoder Decomposition

要約

連携学習は、分散化されたクライアントが、すべての学習データをローカルに保ちながら、共有モデルを共同で学習することを可能にする機械学習パラダイムである。連携画像生成、特にGenerative Adversarial Networks(生成逆数ネットワーク)については多くの研究が行われているが、Variational Autoencoders(変分オートエンコーダ)についてはあまり注目されていない。本稿では、非IID(独立かつ同一に分布する)データ環境の課題に取り組む。非IIDデータ分布は、一貫性のある潜在空間を維持することの難しさにつながり、また、異なるテクスチャ特徴を持つローカルジェネレータが、集約の際にブレンドされてしまう可能性がある。そこで我々は、潜在空間を切り離し、個々のクライアントグループに合わせたデコーダ分岐を構築するFissionVAEを導入する。この方法により、各グループのユニークなデータ分布に沿ったカスタマイズされた学習が可能になる。さらに、階層的VAEを組み込み、FissionVAE内で異種デコーダアーキテクチャの使用を実証する。また、デカップリングプロセスを強化するための潜在事前分布を設定する戦略も探求する。一つはMNISTとFashionMNISTを組み合わせたもので、もう一つは漫画と人間の顔、野生動物、海洋船舶、リモートセンシング画像のRGBデータセットである。我々の実験は、FissionVAEが、ベースラインの連携VAEモデルと比較して、これらのデータセットにおける生成品質を大幅に改善することを実証する。

要約(オリジナル)

Federated learning is a machine learning paradigm that enables decentralized clients to collaboratively learn a shared model while keeping all the training data local. While considerable research has focused on federated image generation, particularly Generative Adversarial Networks, Variational Autoencoders have received less attention. In this paper, we address the challenges of non-IID (independently and identically distributed) data environments featuring multiple groups of images of different types. Non-IID data distributions can lead to difficulties in maintaining a consistent latent space and can also result in local generators with disparate texture features being blended during aggregation. We thereby introduce FissionVAE that decouples the latent space and constructs decoder branches tailored to individual client groups. This method allows for customized learning that aligns with the unique data distributions of each group. Additionally, we incorporate hierarchical VAEs and demonstrate the use of heterogeneous decoder architectures within FissionVAE. We also explore strategies for setting the latent prior distributions to enhance the decoupling process. To evaluate our approach, we assemble two composite datasets: the first combines MNIST and FashionMNIST; the second comprises RGB datasets of cartoon and human faces, wild animals, marine vessels, and remote sensing images. Our experiments demonstrate that FissionVAE greatly improves generation quality on these datasets compared to baseline federated VAE models.

arxiv情報

著者 Chen Hu,Hanchi Ren,Jingjing Deng,Xianghua Xie,Xiaoke Ma
発行日 2025-05-05 13:51:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG | FissionVAE: Federated Non-IID Image Generation with Latent Space and Decoder Decomposition はコメントを受け付けていません