LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning

要約

この作業では、現在のマルチモーダルアプローチで支配的な自己網性パラダイムからの逸脱を表す、視覚命令のチューニングをマスクされた拡散モデルと統合する純粋に拡散ベースのマルチモーダル大手言語モデル(MLLM)であるLlada-Vを紹介します。
代表的な大規模な言語拡散モデルであるLladaに基づいて構築されたLLADA-Vには、視覚的特徴を言語の埋め込みスペースに投影するVision EncoderとMLPコネクタが組み込まれ、効果的なマルチモーダルアライメントが可能になります。
私たちの経験的調査は、いくつかの興味深い結果を明らかにしています。まず、LLADA-Vは、Llama3-8BやQWEN2-7Bなどのカウンターパートよりも純粋にテキストのタスクで言語モデルが弱いにもかかわらず有望なマルチモーダルパフォーマンスを示しています。
同じ命令データでトレーニングされると、LLADA-Vは、より良いデータスケーラビリティを備えたマルチモーダルタスク全体でLLAMA3-Vに対して非常に競争力があります。
また、パフォーマンスのギャップをQWEN2-VLに絞り込み、マルチモーダルタスクのアーキテクチャの有効性を示唆しています。
第二に、LLADA-Vは、既存のハイブリッド自己回帰拡散および純粋に拡散ベースのMLLMと比較して、マルチモーダル理解で最先端のパフォーマンスを達成します。
私たちの調査結果は、大規模な言語拡散モデルがマルチモーダルの文脈で有望であり、将来の研究でさらなる調査を保証することを示唆しています。
プロジェクトページとコード:https://ml-gsai.github.io/llada-v-demo/。

要約(オリジナル)

In this work, we introduce LLaDA-V, a purely diffusion-based Multimodal Large Language Model (MLLM) that integrates visual instruction tuning with masked diffusion models, representing a departure from the autoregressive paradigms dominant in current multimodal approaches. Built upon LLaDA, a representative large language diffusion model, LLaDA-V incorporates a vision encoder and MLP connector that projects visual features into the language embedding space, enabling effective multimodal alignment. Our empirical investigation reveals several intriguing results: First, LLaDA-V demonstrates promising multimodal performance despite its language model being weaker on purely textual tasks than counterparts like LLaMA3-8B and Qwen2-7B. When trained on the same instruction data, LLaDA-V is highly competitive to LLaMA3-V across multimodal tasks with better data scalability. It also narrows the performance gap to Qwen2-VL, suggesting the effectiveness of its architecture for multimodal tasks. Second, LLaDA-V achieves state-of-the-art performance in multimodal understanding compared to existing hybrid autoregressive-diffusion and purely diffusion-based MLLMs. Our findings suggest that large language diffusion models show promise in multimodal contexts and warrant further investigation in future research. Project page and codes: https://ml-gsai.github.io/LLaDA-V-demo/.

arxiv情報

著者 Zebin You,Shen Nie,Xiaolu Zhang,Jun Hu,Jun Zhou,Zhiwu Lu,Ji-Rong Wen,Chongxuan Li
発行日 2025-05-22 17:23:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning はコメントを受け付けていません

NovelSeek: When Agent Becomes the Scientist — Building Closed-Loop System from Hypothesis to Verification

要約

人工知能(AI)は、科学研究のパラダイムの変換を加速し、研究効率を高めるだけでなく、革新を推進しています。
統一されたクローズドループマルチエージェントフレームワークであるNovelseekを紹介し、さまざまな科学研究分野で自律科学研究(ASR)を実施し、研究者が前例のない速度と精度でこれらの分野の複雑な問題に取り組むことができます。
NovelSeekは3つの重要な利点を強調しています。1)スケーラビリティ:Goverseekは、ベースラインコードのパフォーマンスを向上させるための革新的なアイデアを生成できる12の科学的研究タスクにわたってその汎用性を実証しています。
2)インタラクティブ性:NovelSeekは、自動化されたエンドツーエンドプロセスにおける人間の専門家フィードバックとマルチエージェント相互作用のインターフェイスを提供し、ドメインの専門知識のシームレスな統合を可能にします。
3)効率:Novelseekは、人間の努力と比較して時間コストが大幅に少なく、いくつかの科学分野で有望なパフォーマンスの向上を達成しています。
たとえば、反応収率予測では、わずか12時間で27.6%から35.4%に増加しました。
エンハンサーの活動予測では、精度はわずか4時間の処理で0.52から0.79に増加しました。
また、2Dセマンティックセグメンテーションでは、30時間で精度が78.8%から81.0%に増加しました。

要約(オリジナル)

Artificial Intelligence (AI) is accelerating the transformation of scientific research paradigms, not only enhancing research efficiency but also driving innovation. We introduce NovelSeek, a unified closed-loop multi-agent framework to conduct Autonomous Scientific Research (ASR) across various scientific research fields, enabling researchers to tackle complicated problems in these fields with unprecedented speed and precision. NovelSeek highlights three key advantages: 1) Scalability: NovelSeek has demonstrated its versatility across 12 scientific research tasks, capable of generating innovative ideas to enhance the performance of baseline code. 2) Interactivity: NovelSeek provides an interface for human expert feedback and multi-agent interaction in automated end-to-end processes, allowing for the seamless integration of domain expert knowledge. 3) Efficiency: NovelSeek has achieved promising performance gains in several scientific fields with significantly less time cost compared to human efforts. For instance, in reaction yield prediction, it increased from 27.6% to 35.4% in just 12 hours; in enhancer activity prediction, accuracy rose from 0.52 to 0.79 with only 4 hours of processing; and in 2D semantic segmentation, precision advanced from 78.8% to 81.0% in a mere 30 hours.

arxiv情報

著者 NovelSeek Team,Bo Zhang,Shiyang Feng,Xiangchao Yan,Jiakang Yuan,Zhiyin Yu,Xiaohan He,Songtao Huang,Shaowei Hou,Zheng Nie,Zhilong Wang,Jinyao Liu,Runmin Ma,Tianshuo Peng,Peng Ye,Dongzhan Zhou,Shufei Zhang,Xiaosong Wang,Yilan Zhang,Meng Li,Zhongying Tu,Xiangyu Yue,Wangli Ouyang,Bowen Zhou,Lei Bai
発行日 2025-05-22 17:27:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | NovelSeek: When Agent Becomes the Scientist — Building Closed-Loop System from Hypothesis to Verification はコメントを受け付けていません

Efficient Correlation Volume Sampling for Ultra-High-Resolution Optical Flow Estimation

要約

最近の光フロー推定方法は、しばしば密な全ペア相関ボリュームからのローカルコストサンプリングを採用しています。
これにより、ピクセル数の2次計算とメモリの複雑さが生じます。
オンデマンドコスト計算を伴う代替メモリ効率の高い実装は存在しますが、これは実際には遅くなるため、通常の方法は解像度の削減で画像を処理し、細粒の詳細が欠落しています。
これに対処するために、RAFTで定義されている正確な数学演算子と一致して、全ペア相関ボリュームサンプリングのより効率的な実装を提案します。
私たちのアプローチは、メモリの使用量が低いことを維持しながら、オンデマンドサンプリングを最大90%上回り、メモリ使用量が最大95%低いデフォルトの実装と同等です。
コストサンプリングは、ランタイム全体の大部分を占めるため、これはメモリが制約された環境での総エンドツーエンドモデル推論に対して最大50%の節約に変換できます。
既存の方法の評価には、8kの超高解像度データセットと、最近のSea-Raftメソッドの追加の推論時間変更が含まれます。
これにより、精度と効率の両方で高解像度で最先端の結果を達成します。

要約(オリジナル)

Recent optical flow estimation methods often employ local cost sampling from a dense all-pairs correlation volume. This results in quadratic computational and memory complexity in the number of pixels. Although an alternative memory-efficient implementation with on-demand cost computation exists, this is slower in practice and therefore prior methods typically process images at reduced resolutions, missing fine-grained details. To address this, we propose a more efficient implementation of the all-pairs correlation volume sampling, still matching the exact mathematical operator as defined by RAFT. Our approach outperforms on-demand sampling by up to 90% while maintaining low memory usage, and performs on par with the default implementation with up to 95% lower memory usage. As cost sampling makes up a significant portion of the overall runtime, this can translate to up to 50% savings for the total end-to-end model inference in memory-constrained environments. Our evaluation of existing methods includes an 8K ultra-high-resolution dataset and an additional inference-time modification of the recent SEA-RAFT method. With this, we achieve state-of-the-art results at high resolutions both in accuracy and efficiency.

arxiv情報

著者 Karlis Martins Briedis,Markus Gross,Christopher Schroers
発行日 2025-05-22 17:30:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Efficient Correlation Volume Sampling for Ultra-High-Resolution Optical Flow Estimation はコメントを受け付けていません

Motion by Queries: Identity-Motion Trade-offs in Text-to-Video Generation

要約

テキスト間拡散モデルは、テキストの説明からコヒーレントなビデオクリップを生成する際に顕著な進歩を示しています。
ただし、これらのモデルの動き、構造、およびアイデンティティ表現の相互作用は、未調査のままです。
ここでは、自己関節クエリ(Q)が動き、構造、およびアイデンティティを同時に管理し、これらの表現が相互作用したときに生じる課題を調べる方法を調査します。
我々の分析では、Qはレイアウトだけでなく、除去中にQが被験者のアイデンティティにも強い影響を与え、アイデンティティを転送する副作用なしに動きを転送することを困難にしていることが明らかになりました。
この二重の役割を理解することで、クエリフィーチャインジェクション(Qインジェクション)を制御し、2つのアプリケーションを実証することができました。(1)ゼロショットモーション転送方法 – Videocrafter2およびWAN 2.1で実装された – これは既存のアプローチよりも10倍効率的です。

要約(オリジナル)

Text-to-video diffusion models have shown remarkable progress in generating coherent video clips from textual descriptions. However, the interplay between motion, structure, and identity representations in these models remains under-explored. Here, we investigate how self-attention query (Q) features simultaneously govern motion, structure, and identity and examine the challenges arising when these representations interact. Our analysis reveals that Q affects not only layout, but that during denoising Q also has a strong effect on subject identity, making it hard to transfer motion without the side-effect of transferring identity. Understanding this dual role enabled us to control query feature injection (Q injection) and demonstrate two applications: (1) a zero-shot motion transfer method – implemented with VideoCrafter2 and WAN 2.1 – that is 10 times more efficient than existing approaches, and (2) a training-free technique for consistent multi-shot video generation, where characters maintain identity across multiple video shots while Q injection enhances motion fidelity.

arxiv情報

著者 Yuval Atzmon,Rinon Gal,Yoad Tewel,Yoni Kasten,Gal Chechik
発行日 2025-05-22 17:41:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Motion by Queries: Identity-Motion Trade-offs in Text-to-Video Generation はコメントを受け付けていません

MedFrameQA: A Multi-Image Medical VQA Benchmark for Clinical Reasoning

要約

既存の医療用VQAベンチマークは、主に単一イメージ分析に焦点を当てていますが、臨床医はほとんどの場合、診断に到達する前に一連の画像を比較します。
このワークフローをよりよく近似するために、MedFrameQAを紹介します。これは、医療VQAのマルチイメージの推論を明示的に評価する最初のベンチマークです。
大規模および高品質の両方でMedframeQAを構築するために、1)医療ビデオから一時的にコヒーレントなフレームを抽出し、コンテンツが画像間で論理的に進化するVQAアイテムを構築する自動化されたパイプラインを開発し、2)モデルベースおよびマニュアルレビューを含む複数のステージフィルタリング戦略を、データの明確さ、困難、および医療の関連性を維持します。
結果のデータセットは、2,851個のVQAペア(3,420ビデオで9,237個の高品質フレームから収集された)で構成され、9人の人体システムと43個の臓器をカバーしています。
すべての質問には、2〜5枚の画像が伴います。
MedFrameQAで、明示的な推論モジュールの有無にかかわらず、10の高度なマルチモーダルLLM(独自およびオープンソースの両方)を包括的にベンチマークします。
この評価は、すべてのモデルのパフォーマンスが不十分であり、ほとんどの精度が50%未満であり、質問ごとの画像の数が増加するにつれて精度が変動することを明らかにしています。
エラー分析により、モデルは顕著な調査結果を頻繁に無視し、画像間の証拠を誤って凝集させ、推論チェーンを通して初期の間違いを伝播することを示しています。
結果は、身体システム、臓器、およびモダリティによっても大きく異なります。
この作業が、臨床的に根拠のあるマルチイメージの推論に関する研究を触媒し、より有能な診断AIシステムへの進歩を加速できることを願っています。

要約(オリジナル)

Existing medical VQA benchmarks mostly focus on single-image analysis, yet clinicians almost always compare a series of images before reaching a diagnosis. To better approximate this workflow, we introduce MedFrameQA — the first benchmark that explicitly evaluates multi-image reasoning in medical VQA. To build MedFrameQA both at scale and in high-quality, we develop 1) an automated pipeline that extracts temporally coherent frames from medical videos and constructs VQA items whose content evolves logically across images, and 2) a multiple-stage filtering strategy, including model-based and manual review, to preserve data clarity, difficulty, and medical relevance. The resulting dataset comprises 2,851 VQA pairs (gathered from 9,237 high-quality frames in 3,420 videos), covering nine human body systems and 43 organs; every question is accompanied by two to five images. We comprehensively benchmark ten advanced Multimodal LLMs — both proprietary and open source, with and without explicit reasoning modules — on MedFrameQA. The evaluation challengingly reveals that all models perform poorly, with most accuracies below 50%, and accuracy fluctuates as the number of images per question increases. Error analysis further shows that models frequently ignore salient findings, mis-aggregate evidence across images, and propagate early mistakes through their reasoning chains; results also vary substantially across body systems, organs, and modalities. We hope this work can catalyze research on clinically grounded, multi-image reasoning and accelerate progress toward more capable diagnostic AI systems.

arxiv情報

著者 Suhao Yu,Haojin Wang,Juncheng Wu,Cihang Xie,Yuyin Zhou
発行日 2025-05-22 17:46:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | MedFrameQA: A Multi-Image Medical VQA Benchmark for Clinical Reasoning はコメントを受け付けていません

Harnessing the Computation Redundancy in ViTs to Boost Adversarial Transferability

要約

Vision Transformers(VITS)は、多くの安全性クリティカルなタスクを含む、さまざまなアプリケーションで印象的なパフォーマンスを実証しています。
しかし、彼らのユニークな建築物質は、敵対的な堅牢性の新しい課題と機会を生み出します。
特に、VITで作られた敵対的な例は、CNNで作られたものと比較してより高い転送可能性を示すことを観察します。
この作業では、競争における計算冗長性の役割と、敵対的な移動性への影響を調査します。
効率のための計算を減らすことを目的とした以前の研究とは異なり、敵対例の品質と移動性を改善するために、この冗長性を活用することを提案します。
詳細な分析を通じて、攻撃の有効性を増幅するために利用できるデータレベルとモデルレベルを含む2つの形式の冗長性を特定します。
この洞察に基づいて、私たちは注意のスパース操作、注意の順列、クリーントークンの正則化、ゴーストモーの多様化、テスト時間の敵対的トレーニングなど、一連のテクニックを設計します。
ImagENET-1Kデータセットに関する広範な実験は、アプローチの有効性を検証し、さまざまなモデルアーキテクチャ全体の移動性と一般性の両方で既存のベースラインを大幅に上回ることを示しています。

要約(オリジナル)

Vision Transformers (ViTs) have demonstrated impressive performance across a range of applications, including many safety-critical tasks. However, their unique architectural properties raise new challenges and opportunities in adversarial robustness. In particular, we observe that adversarial examples crafted on ViTs exhibit higher transferability compared to those crafted on CNNs, suggesting that ViTs contain structural characteristics favorable for transferable attacks. In this work, we investigate the role of computational redundancy in ViTs and its impact on adversarial transferability. Unlike prior studies that aim to reduce computation for efficiency, we propose to exploit this redundancy to improve the quality and transferability of adversarial examples. Through a detailed analysis, we identify two forms of redundancy, including the data-level and model-level, that can be harnessed to amplify attack effectiveness. Building on this insight, we design a suite of techniques, including attention sparsity manipulation, attention head permutation, clean token regularization, ghost MoE diversification, and test-time adversarial training. Extensive experiments on the ImageNet-1k dataset validate the effectiveness of our approach, showing that our methods significantly outperform existing baselines in both transferability and generality across diverse model architectures.

arxiv情報

著者 Jiani Liu,Zhiyuan Wang,Zeliang Zhang,Chao Huang,Susan Liang,Yunlong Tang,Chenliang Xu
発行日 2025-05-22 17:49:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Harnessing the Computation Redundancy in ViTs to Boost Adversarial Transferability はコメントを受け付けていません

UniPhy: Learning a Unified Constitutive Model for Inverse Physics Simulation

要約

私たちは、多様な材料の物理的特性をコードすることができる一般的な潜在的な神経構成モデルであるUniphyを提案します。
推論では、Uniphyは「逆シミュレーション」を許可します。つまり、シーン固有の潜在性を最適化して、微分可能なシミュレーションを介して利用可能な観測値を一致させることにより、材料特性を推測します。
このような推論をシステム識別などの扱いをする既存の方法とは対照的に、Uniphyはユーザー指定の材料タイプ情報に依存していません。
インスタンス固有のネットワークを学習する以前の神経構成モデリングアプローチと比較して、材料間で共有されたトレーニングは、推定の堅牢性と精度の両方を改善します。
弾性、プラスチシン、砂、液体(Newtonian&Non-Newtonian)など、さまざまな幾何学および材料全体にシミュレートされた軌道を使用してユニファイを訓練します。
推論では、不明な材料特性を持つオブジェクトが与えられた場合、Uniphyは動きの観測と一致する潜在的な最適化を介して材料特性を推測し、多様なシナリオでオブジェクトを再シミュレートできるようにすることができます。
Uniphyを以前の逆シミュレーション方法と比較し、Uniphyからの推論が新しい条件下でより正確なリプレイと再シミュレーションを可能にすることを示します。

要約(オリジナル)

We propose UniPhy, a common latent-conditioned neural constitutive model that can encode the physical properties of diverse materials. At inference UniPhy allows `inverse simulation’ i.e. inferring material properties by optimizing the scene-specific latent to match the available observations via differentiable simulation. In contrast to existing methods that treat such inference as system identification, UniPhy does not rely on user-specified material type information. Compared to prior neural constitutive modeling approaches which learn instance specific networks, the shared training across materials improves both, robustness and accuracy of the estimates. We train UniPhy using simulated trajectories across diverse geometries and materials — elastic, plasticine, sand, and fluids (Newtonian & non-Newtonian). At inference, given an object with unknown material properties, UniPhy can infer the material properties via latent optimization to match the motion observations, and can then allow re-simulating the object under diverse scenarios. We compare UniPhy against prior inverse simulation methods, and show that the inference from UniPhy enables more accurate replay and re-simulation under novel conditions.

arxiv情報

著者 Himangi Mittal,Peiye Zhuang,Hsin-Ying Lee,Shubham Tulsiani
発行日 2025-05-22 17:50:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | UniPhy: Learning a Unified Constitutive Model for Inverse Physics Simulation はコメントを受け付けていません

OpenSeg-R: Improving Open-Vocabulary Segmentation via Step-by-Step Visual Reasoning

要約

オープンボキャブラリーセグメンテーション(OVS)は、事前定義されたカテゴリを超えてセグメンテーションを一般化する能力に注目を集めています。
ただし、既存の方法は通常、単純な前方推論を伴うセグメンテーションマスクを予測し、明示的な推論と解釈可能性を欠いています。
これにより、OVSモデルが、文脈上の理解と識別的な視覚的キューがないため、オープンワールド設定で同様のカテゴリを区別することが困難になります。
この制限に対処するために、Openseg-Rという名前のオープンボキャブラリーセグメンテーションのための段階的な視覚的推論フレームワークを提案します。
提案されたOpenseg-Rは、大規模なマルチモーダルモデル(LMM)を活用して、セグメンテーション前に階層的な視覚的推論を実行します。
具体的には、各画像に対して一般的なおよび画像固有の推論の両方を生成し、粗から金融の方法でオブジェクトの視覚的理由を説明する構造化されたトリプレットを形成します。
これらの推論ステップに基づいて、詳細な説明プロンプトを作成し、セグメント装置にフィードして、より正確なセグメンテーションマスクを作成できます。
私たちの知る限り、Openseg-Rは、OVSに明示的な段階的な視覚的推論を導入する最初のフレームワークです。
実験結果は、Openseg-Rが5つのベンチマークデータセットにわたるオープンボキャブラリーセマンティックセグメンテーションの最先端の方法を大幅に上回ることを示しています。
さらに、オープンボキャブラリーパノプティックセグメンテーションのすべてのメトリックにわたって一貫した利益を達成します。
定性的な結果は、セグメンテーションの精度と解釈可能性の両方を改善する上で、推論ガイド付きフレームワークの有効性をさらに強調しています。
私たちのコードは、https://github.com/hanzy1996/openseg-rで公開されています。

要約(オリジナル)

Open-Vocabulary Segmentation (OVS) has drawn increasing attention for its capacity to generalize segmentation beyond predefined categories. However, existing methods typically predict segmentation masks with simple forward inference, lacking explicit reasoning and interpretability. This makes it challenging for OVS model to distinguish similar categories in open-world settings due to the lack of contextual understanding and discriminative visual cues. To address this limitation, we propose a step-by-step visual reasoning framework for open-vocabulary segmentation, named OpenSeg-R. The proposed OpenSeg-R leverages Large Multimodal Models (LMMs) to perform hierarchical visual reasoning before segmentation. Specifically, we generate both generic and image-specific reasoning for each image, forming structured triplets that explain the visual reason for objects in a coarse-to-fine manner. Based on these reasoning steps, we can compose detailed description prompts, and feed them to the segmentor to produce more accurate segmentation masks. To the best of our knowledge, OpenSeg-R is the first framework to introduce explicit step-by-step visual reasoning into OVS. Experimental results demonstrate that OpenSeg-R significantly outperforms state-of-the-art methods on open-vocabulary semantic segmentation across five benchmark datasets. Moreover, it achieves consistent gains across all metrics on open-vocabulary panoptic segmentation. Qualitative results further highlight the effectiveness of our reasoning-guided framework in improving both segmentation precision and interpretability. Our code is publicly available at https://github.com/Hanzy1996/OpenSeg-R.

arxiv情報

著者 Zongyan Han,Jiale Cao,Shuo Chen,Tong Wang,Jorma Laaksonen,Rao Muhammad Anwer
発行日 2025-05-22 17:51:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | OpenSeg-R: Improving Open-Vocabulary Segmentation via Step-by-Step Visual Reasoning はコメントを受け付けていません

Creatively Upscaling Images with Global-Regional Priors

要約

現代の拡散モデルは、テキストからイメージの生成において顕著な能力を示していますが、制限された解像度に限定されています(例:1,024 x 1,024)。
最近の進歩により、事前に訓練された拡散モデルをリサイクルし、地域の除去または拡張サンプリング/畳み込みを介してそれらを拡張することにより、チューニングのない高解像度の画像生成が可能になります。
ただし、これらのモデルは、グローバルなセマンティック構造を同時に保存し、高解像度画像で創造的な地域の詳細を生成するのに苦労しています。
これに対処するために、Multimodal LLMを介したグローバルプロンプトと推定地域プロンプトから派生したグローバル地域のプライアーにピボットをアップスケーリングするチューニングフリーの画像の新しいレシピであるCupscaleを提示します。
技術的には、低解像度画像の低周波成分は、高解像度の生成におけるグローバルなセマンティックの一貫性を促進する前に、グローバル構造として認識されます。
次に、地域の注意制御を実行して、地域の除去中にグローバルプロンプトと各地域の間の交差に関する反対をスクリーニングし、オブジェクトの繰り返しの問題を軽減する地域の注意を引き起こします。
豊富な記述の詳細を含む推定地域プロンプトは、地域の詳細生成の創造性を促進する前に、さらに地域の意味として機能します。
定量的評価と定性的評価の両方が、私たちのCUpscaleが超高解像度の画像を生成していることを示しています(例:4,096 x 4,096および8,192 x 8,192)。

要約(オリジナル)

Contemporary diffusion models show remarkable capability in text-to-image generation, while still being limited to restricted resolutions (e.g., 1,024 X 1,024). Recent advances enable tuning-free higher-resolution image generation by recycling pre-trained diffusion models and extending them via regional denoising or dilated sampling/convolutions. However, these models struggle to simultaneously preserve global semantic structure and produce creative regional details in higher-resolution images. To address this, we present C-Upscale, a new recipe of tuning-free image upscaling that pivots on global-regional priors derived from given global prompt and estimated regional prompts via Multimodal LLM. Technically, the low-frequency component of low-resolution image is recognized as global structure prior to encourage global semantic consistency in high-resolution generation. Next, we perform regional attention control to screen cross-attention between global prompt and each region during regional denoising, leading to regional attention prior that alleviates object repetition issue. The estimated regional prompts containing rich descriptive details further act as regional semantic prior to fuel the creativity of regional detail generation. Both quantitative and qualitative evaluations demonstrate that our C-Upscale manages to generate ultra-high-resolution images (e.g., 4,096 X 4,096 and 8,192 X 8,192) with higher visual fidelity and more creative regional details.

arxiv情報

著者 Yurui Qian,Qi Cai,Yingwei Pan,Ting Yao,Tao Mei
発行日 2025-05-22 17:51:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM | Creatively Upscaling Images with Global-Regional Priors はコメントを受け付けていません

Incorporating Visual Correspondence into Diffusion Model for Virtual Try-On

要約

拡散モデルは、Virtual Try-On(VTON)タスクで予備的な成功を示しています。
典型的なデュアルブランチアーキテクチャは、それぞれ暗黙の衣服の変形と合成された画像生成のための2つのUNETで構成されており、VTONタスクのレシピとして登場しています。
それにもかかわらず、この問題は、拡散モデルの固有の確率のために、与えられた衣服の形状と細部を維持するのに困難なままです。
この問題を緩和するために、私たちは、外観参照として衣服全体をUNETに単純に供給するのではなく、拡散プロセスの前に視覚的対応を明示的に資本化することを新たに提案します。
具体的には、細かい外観とテクスチャの詳細を構造化されたセマンティックポイントのセットとして解釈し、衣服に根ざしたセマンティックポイントを、ローカルフローワーピングを通じてターゲットの人に一致させます。
そのような2Dポイントは、ターゲットパーソンの深さ/通常のマップを使用して、3Dにアウェアのキューに増強されます。
対応は、人体に衣服を置く方法を模倣しており、3Dに目覚める手がかりは、拡散モデルトレーニングを監督するためのセマンティックポイントマッチングとして機能します。
セマンティックポイントマッチングを完全に活用するために、ポイントに焦点を当てた拡散損失がさらに考案されます。
広範な実験は、Viton-HDデータセットとドレスコードデータセットの両方で最先端のVTONパフォーマンスによって証明される、私たちのアプローチの強力な衣服の詳細保存を示しています。
コードは、https://github.com/hidream-ai/spm-diffで公開されています。

要約(オリジナル)

Diffusion models have shown preliminary success in virtual try-on (VTON) task. The typical dual-branch architecture comprises two UNets for implicit garment deformation and synthesized image generation respectively, and has emerged as the recipe for VTON task. Nevertheless, the problem remains challenging to preserve the shape and every detail of the given garment due to the intrinsic stochasticity of diffusion model. To alleviate this issue, we novelly propose to explicitly capitalize on visual correspondence as the prior to tame diffusion process instead of simply feeding the whole garment into UNet as the appearance reference. Specifically, we interpret the fine-grained appearance and texture details as a set of structured semantic points, and match the semantic points rooted in garment to the ones over target person through local flow warping. Such 2D points are then augmented into 3D-aware cues with depth/normal map of target person. The correspondence mimics the way of putting clothing on human body and the 3D-aware cues act as semantic point matching to supervise diffusion model training. A point-focused diffusion loss is further devised to fully take the advantage of semantic point matching. Extensive experiments demonstrate strong garment detail preservation of our approach, evidenced by state-of-the-art VTON performances on both VITON-HD and DressCode datasets. Code is publicly available at: https://github.com/HiDream-ai/SPM-Diff.

arxiv情報

著者 Siqi Wan,Jingwen Chen,Yingwei Pan,Ting Yao,Tao Mei
発行日 2025-05-22 17:52:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM | Incorporating Visual Correspondence into Diffusion Model for Virtual Try-On はコメントを受け付けていません