UniGoal: Towards Universal Zero-shot Goal-oriented Navigation

要約

この論文では、ユニバーサルゼロショットの目標指向ナビゲーションの一般的なフレームワークを提案します。
既存のゼロショットメソッドは、特定のタスクの大きな言語モデル(LLM)に推論フレームワークを構築します。これは、全体的なパイプラインで大きく異なり、さまざまなタイプの目標にわたって一般化できません。
ユニバーサルゼロショットナビゲーションの目的に向けて、オブジェクトカテゴリ、インスタンス画像、テキストの説明など、さまざまな目標を統合するための均一なグラフ表現を提案します。
また、エージェントの観測をオンラインで維持されたシーングラフに変換します。
この一貫したシーンと目標表現により、純粋なテキストと比較してほとんどの構造情報を保存し、明示的なグラフベースの推論のためにLLMを活用することができます。
具体的には、シーングラフとゴールグラフの間で各時間瞬間にマッチングを行い、異なる戦略を提案して、さまざまな一致状態に従って探査の長期目標を生成します。
エージェントは、最初にゼロマッチングが行われたときにゴールのサブグラフを繰り返し検索します。
部分的なマッチングで、エージェントは座標投影とアンカーペアのアライメントを使用して、目標の位置を推測します。
最後に、シーングラフの修正と目標検証が​​完全にマッチするように適用されます。
また、ステージ間の堅牢なスイッチを有効にするためのブラックリストメカニズムも提示します。
いくつかのベンチマークでの広範な実験は、私たちのユニゴールが、単一のモデル、さらにはタスク固有のゼロショットメソッドを上回るだけでなく、監視されたユニバーサル方法を上回る3つの研究されたナビゲーションタスクで最先端のゼロショットパフォーマンスを達成することを示しています。

要約(オリジナル)

In this paper, we propose a general framework for universal zero-shot goal-oriented navigation. Existing zero-shot methods build inference framework upon large language models (LLM) for specific tasks, which differs a lot in overall pipeline and fails to generalize across different types of goal. Towards the aim of universal zero-shot navigation, we propose a uniform graph representation to unify different goals, including object category, instance image and text description. We also convert the observation of agent into an online maintained scene graph. With this consistent scene and goal representation, we preserve most structural information compared with pure text and are able to leverage LLM for explicit graph-based reasoning. Specifically, we conduct graph matching between the scene graph and goal graph at each time instant and propose different strategies to generate long-term goal of exploration according to different matching states. The agent first iteratively searches subgraph of goal when zero-matched. With partial matching, the agent then utilizes coordinate projection and anchor pair alignment to infer the goal location. Finally scene graph correction and goal verification are applied for perfect matching. We also present a blacklist mechanism to enable robust switch between stages. Extensive experiments on several benchmarks show that our UniGoal achieves state-of-the-art zero-shot performance on three studied navigation tasks with a single model, even outperforming task-specific zero-shot methods and supervised universal methods.

arxiv情報

著者 Hang Yin,Xiuwei Xu,Lingqing Zhao,Ziwei Wang,Jie Zhou,Jiwen Lu
発行日 2025-03-13 17:59:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | UniGoal: Towards Universal Zero-shot Goal-oriented Navigation はコメントを受け付けていません

Kolmogorov-Arnold Attention: Is Learnable Attention Better For Vision Transformers?

要約

Kolmogorov-Arnold Networks(KANS)は、データからより複雑な関係を獲得する可能性を秘めた、学習可能な活性化関数で構成される顕著な革新です。
Kansは象徴的な表現を見つけ、1次元機能の継続的な学習に役立ちますが、ビジョンなどの多様な機械学習(ML)タスクにおけるそれらの有効性は疑わしいままです。
現在、Kansは、ビジョントランス(VIT)などの高度なアーキテクチャを含む、深いネットワークアーキテクチャに多層パーセプロン(MLP)を置き換えることにより展開されています。
この論文では、私たちは、あらゆる選択で動作できるバニラのvitsの一般的な学習可能なコルモゴロフ・アーノルドの注意(karat)を設計した最初の人です。
しかし、彼らがトレーニングするためのコンピューティングとメモリのコストは、よりモジュール式バージョンを提案するように私たちに動機付けられ、Fourier-Karatと呼ばれる特定の学習可能な注意を設計しました。
フーリエカラットとそのバリエーションは、VITカウンターパートを上回るか、CIFAR-10、CIFAR-100、およびImagenet-1Kデータセットで同等のパフォーマンスを示します。
これらのアーキテクチャのパフォーマンスと一般化能力を分析し、損失の状況、重量分布、オプティマイザーパス、注意の視覚化、およびスペクトル挙動を分析し、バニラのvitsと対比します。
このペーパーの目標は、パラメーターと計算効率の高い注意を生み出すことではなく、学習可能な活性化を慎重に理解する必要があるより高度なアーキテクチャと併せてカンを探索することをコミュニティに奨励することです。
オープンソースコードと実装の詳細は、https://subhajitmaity.me/karatで入手できます

要約(オリジナル)

Kolmogorov-Arnold networks (KANs) are a remarkable innovation consisting of learnable activation functions with the potential to capture more complex relationships from data. Although KANs are useful in finding symbolic representations and continual learning of one-dimensional functions, their effectiveness in diverse machine learning (ML) tasks, such as vision, remains questionable. Presently, KANs are deployed by replacing multilayer perceptrons (MLPs) in deep network architectures, including advanced architectures such as vision Transformers (ViTs). In this paper, we are the first to design a general learnable Kolmogorov-Arnold Attention (KArAt) for vanilla ViTs that can operate on any choice of basis. However, the computing and memory costs of training them motivated us to propose a more modular version, and we designed particular learnable attention, called Fourier-KArAt. Fourier-KArAt and its variants either outperform their ViT counterparts or show comparable performance on CIFAR-10, CIFAR-100, and ImageNet-1K datasets. We dissect these architectures’ performance and generalization capacity by analyzing their loss landscapes, weight distributions, optimizer path, attention visualization, and spectral behavior, and contrast them with vanilla ViTs. The goal of this paper is not to produce parameter- and compute-efficient attention, but to encourage the community to explore KANs in conjunction with more advanced architectures that require a careful understanding of learnable activations. Our open-source code and implementation details are available on: https://subhajitmaity.me/KArAt

arxiv情報

著者 Subhajit Maity,Killian Hitsman,Xin Li,Aritra Dutta
発行日 2025-03-13 17:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.CV, cs.LG, I.2.6 | Kolmogorov-Arnold Attention: Is Learnable Attention Better For Vision Transformers? はコメントを受け付けていません

HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model

要約

一般的な推論のための視覚言語モデル(VLM)の最近の進歩により、視覚言語アクション(VLA)モデルの開発が行われ、ロボットが一般化された操作を実行できます。
既存の自己回帰VLAメソッドは、大規模な事前に抑制された知識を活用していますが、アクションの連続性を混乱させます。
一方、一部のVLAメソッドには、追加の拡散ヘッドが組み込まれ、継続的なアクションを予測し、VLM抽出された機能のみに依存して、推論機能を制限します。
このペーパーでは、単に接続するのではなく、単一の大手言語モデル内で自己回帰ポリシーと拡散ポリシーの両方の強度をシームレスに統合する統合されたフレームワークであるHybridvlaを紹介します。
生成ギャップを埋めるために、拡散モデリングを次のトークン予測に直接注入する共同トレーニングレシピが提案されています。
このレシピにより、これらの2つの形式のアクション予測は、互いを強化するだけでなく、異なるタスクでさまざまなパフォーマンスを示すことがわかります。
したがって、これらの2つの予測を適応的に融合させ、より堅牢な制御につながる共同アクションアンサンブルメカニズムを設計します。
実験では、HybridVLAは、シングルアームロボットとデュアルアームロボットの両方を含むさまざまなシミュレーションと現実世界のタスクにわたって以前の最先端のVLAメソッドを上回り、以前に見えない構成の安定した操作を示します。

要約(オリジナル)

Recent advancements in vision-language models (VLMs) for common-sense reasoning have led to the development of vision-language-action (VLA) models, enabling robots to perform generalized manipulation. Although existing autoregressive VLA methods leverage large-scale pretrained knowledge, they disrupt the continuity of actions. Meanwhile, some VLA methods incorporate an additional diffusion head to predict continuous actions, relying solely on VLM-extracted features, which limits their reasoning capabilities. In this paper, we introduce HybridVLA, a unified framework that seamlessly integrates the strengths of both autoregressive and diffusion policies within a single large language model, rather than simply connecting them. To bridge the generation gap, a collaborative training recipe is proposed that injects the diffusion modeling directly into the next-token prediction. With this recipe, we find that these two forms of action prediction not only reinforce each other but also exhibit varying performance across different tasks. Therefore, we design a collaborative action ensemble mechanism that adaptively fuses these two predictions, leading to more robust control. In experiments, HybridVLA outperforms previous state-of-the-art VLA methods across various simulation and real-world tasks, including both single-arm and dual-arm robots, while demonstrating stable manipulation in previously unseen configurations.

arxiv情報

著者 Jiaming Liu,Hao Chen,Pengju An,Zhuoyang Liu,Renrui Zhang,Chenyang Gu,Xiaoqi Li,Ziyu Guo,Sixiang Chen,Mengzhen Liu,Chengkai Hou,Mengdi Zhao,KC alex Zhou,Pheng-Ann Heng,Shanghang Zhang
発行日 2025-03-13 17:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model はコメントを受け付けていません

Charting and Navigating Hugging Face’s Model Atlas

要約

現在、何百万もの公開されているニューラルネットワークがあるため、大規模なモデルリポジトリの検索と分析がますます重要になります。
非常に多くのモデルをナビゲートするにはAtlasが必要ですが、ほとんどのモデルは文書化されていないため、そのようなアトラスは挑戦的です。
モデルリポジトリの隠された可能性を調査するために、抱きしめる顔の記録された割合を表す予備的なアトラスをチャートします。
モデルの風景と進化の見事な視覚化を提供します。
モデル属性の予測(精度など)、コンピュータービジョンモデルの傾向の分析など、このアトラスのいくつかのアプリケーションを実証します。
ただし、現在のATLAが不完全なままであるため、文書化されていない領域をチャート化する方法を提案します。
具体的には、支配的な現実世界のモデルトレーニングの実践に基づいて、自信の高い構造的事前分野を特定します。
これらのプライアーを活用して、私たちのアプローチにより、以前は文書化されていないAtlasの正確なマッピングが可能になります。
データセット、コード、およびインタラクティブなアトラスを公開しています。

要約(オリジナル)

As there are now millions of publicly available neural networks, searching and analyzing large model repositories becomes increasingly important. Navigating so many models requires an atlas, but as most models are poorly documented charting such an atlas is challenging. To explore the hidden potential of model repositories, we chart a preliminary atlas representing the documented fraction of Hugging Face. It provides stunning visualizations of the model landscape and evolution. We demonstrate several applications of this atlas including predicting model attributes (e.g., accuracy), and analyzing trends in computer vision models. However, as the current atlas remains incomplete, we propose a method for charting undocumented regions. Specifically, we identify high-confidence structural priors based on dominant real-world model training practices. Leveraging these priors, our approach enables accurate mapping of previously undocumented areas of the atlas. We publicly release our datasets, code, and interactive atlas.

arxiv情報

著者 Eliahu Horwitz,Nitzan Kurer,Jonathan Kahana,Liel Amar,Yedid Hoshen
発行日 2025-03-13 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | Charting and Navigating Hugging Face’s Model Atlas はコメントを受け付けていません

A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1

要約

オープンソースの大型ビジョン言語モデル(LVLMS)での有望なパフォーマンスにもかかわらず、トランスファーベースのターゲット攻撃は、ブラックボックスの商用LVLMに対してしばしば失敗することがよくあります。
失敗した敵対的な摂動を分析すると、学習した摂動は通常、均一な分布に由来し、明確なセマンティックの詳細が欠けており、意図しない反応をもたらすことが明らかになりました。
セマンティック情報のこの重大な欠如により、商用LVLMは摂動を完全に無視するか、埋め込まれたセマンティクスを誤って解釈し、それにより攻撃が失敗します。
これらの問題を克服するために、コアセマンティックオブジェクトを特定することが、さまざまなデータセットや方法論でトレーニングされたモデルにとって重要な目的であることに気付きます。
この洞察は、ローカル地域内の明示的なセマンティックの詳細をエンコードし、相互運用性を確保し、より細かい特徴をキャプチャし、均一に適用するのではなく、意味的に豊富な領域に集中することにより、セマンティックの明確さを改善するアプローチを動機付けます。
これを達成するために、シンプルでありながら非常に効果的なソリューションを提案します。各最適化ステップで、敵対的な画像は制御されたアスペクト比とスケールによってランダムにトリミングされ、サイズ変更され、埋め込み空間のターゲット画像と整列します。
実験結果は私たちの仮説を確認します。
重要な領域に焦点を当てた局所凝集摂動で作られた敵対的な例は、GPT-4.5、GPT-4O、GEMINI-2.0-FLASH、CLAUDE-3.5-SONNET、CLAUDE-3.7-SONNET、さらにはO1、Claude-3.7-thinkinkのような推論モデルなど、市販のLVLMSへの驚くほど良好な移動性を示します。
gemini-2.0-flash-hinking。
私たちのアプローチは、GPT-4.5、4o、およびO1で90%を超える成功率を達成し、以前のすべての最先端の攻撃方法を大幅に上回ります。
さまざまな構成とトレーニングコードの下で最適化された敵対例は、https://github.com/vila-lab/m- attackで入手できます。

要約(オリジナル)

Despite promising performance on open-source large vision-language models (LVLMs), transfer-based targeted attacks often fail against black-box commercial LVLMs. Analyzing failed adversarial perturbations reveals that the learned perturbations typically originate from a uniform distribution and lack clear semantic details, resulting in unintended responses. This critical absence of semantic information leads commercial LVLMs to either ignore the perturbation entirely or misinterpret its embedded semantics, thereby causing the attack to fail. To overcome these issues, we notice that identifying core semantic objects is a key objective for models trained with various datasets and methodologies. This insight motivates our approach that refines semantic clarity by encoding explicit semantic details within local regions, thus ensuring interoperability and capturing finer-grained features, and by concentrating modifications on semantically rich areas rather than applying them uniformly. To achieve this, we propose a simple yet highly effective solution: at each optimization step, the adversarial image is cropped randomly by a controlled aspect ratio and scale, resized, and then aligned with the target image in the embedding space. Experimental results confirm our hypothesis. Our adversarial examples crafted with local-aggregated perturbations focused on crucial regions exhibit surprisingly good transferability to commercial LVLMs, including GPT-4.5, GPT-4o, Gemini-2.0-flash, Claude-3.5-sonnet, Claude-3.7-sonnet, and even reasoning models like o1, Claude-3.7-thinking and Gemini-2.0-flash-thinking. Our approach achieves success rates exceeding 90% on GPT-4.5, 4o, and o1, significantly outperforming all prior state-of-the-art attack methods. Our optimized adversarial examples under different configurations and training code are available at https://github.com/VILA-Lab/M-Attack.

arxiv情報

著者 Zhaoyi Li,Xiaohan Zhao,Dong-Dong Wu,Jiacheng Cui,Zhiqiang Shen
発行日 2025-03-13 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1 はコメントを受け付けていません

V2Edit: Versatile Video Diffusion Editor for Videos and 3D Scenes

要約

このペーパーでは、v $^2 $ editを紹介します。これは、指導ガイド付きビデオと3Dシーン編集のための新しいトレーニングフリーフレームワークです。
元のコンテンツの保存と編集タスクの履行のバランスをとるという重要な課題に対処すると、私たちのアプローチは、複雑な編集タスクを単純なサブタスクのシーケンスに分解する進歩的な戦略を採用しています。
各サブタスクは、3つの重要な相乗メカニズムを介して制御されます。初期ノイズ、各除去ステップで追加されたノイズ、およびテキストプロンプトとビデオコンテンツの間の交差マップです。
これにより、目的の編集を効果的に適用しながら、元のビデオ要素を堅牢に保存します。
ネイティブビデオ編集機能を超えて、v $^2 $編集は、「Render-Edit-Reconstruct」プロセスを介して3Dシーンの編集に拡張され、オブジェクト挿入などの大幅な幾何学的変化を含むタスクでも高品質の3D無意味の編集を可能にします。
広範な実験は、V $^2 $編集が、さまざまな挑戦的なビデオ編集タスクと複雑な3Dシーン編集タスクにわたって高品質で成功した編集を実現し、それによって両方のドメインで最先端のパフォーマンスを確立することを示しています。

要約(オリジナル)

This paper introduces V$^2$Edit, a novel training-free framework for instruction-guided video and 3D scene editing. Addressing the critical challenge of balancing original content preservation with editing task fulfillment, our approach employs a progressive strategy that decomposes complex editing tasks into a sequence of simpler subtasks. Each subtask is controlled through three key synergistic mechanisms: the initial noise, noise added at each denoising step, and cross-attention maps between text prompts and video content. This ensures robust preservation of original video elements while effectively applying the desired edits. Beyond its native video editing capability, we extend V$^2$Edit to 3D scene editing via a ‘render-edit-reconstruct’ process, enabling high-quality, 3D-consistent edits even for tasks involving substantial geometric changes such as object insertion. Extensive experiments demonstrate that our V$^2$Edit achieves high-quality and successful edits across various challenging video editing tasks and complex 3D scene editing tasks, thereby establishing state-of-the-art performance in both domains.

arxiv情報

著者 Yanming Zhang,Jun-Kun Chen,Jipeng Lyu,Yu-Xiong Wang
発行日 2025-03-13 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | V2Edit: Versatile Video Diffusion Editor for Videos and 3D Scenes はコメントを受け付けていません

Distilling Diversity and Control in Diffusion Models

要約

蒸留拡散モデルは、重大な制限に悩まされています。サンプルの多様性の低下と比較して、ベースのカウンターパートです。
この作業では、この多様性の損失にもかかわらず、蒸留モデルがベースモデルの基本的な概念表現を保持していることを明らかにします。
コントロール蒸留を示します – ベースモデルでトレーニングされた概念スライダーやLORASなどの制御メカニズムをシームレスに蒸留モデルに転送し、その逆に、再訓練なしで効果的にコントロールを蒸留することができます。
この表現構造の保存により、蒸留中の多様性崩壊のメカニズムに関する調査が促されました。
蒸留が多様性にどのように影響するかを理解するために、モデルが中間ステップで最終出力を予測する方法を明らかにする分析とデバッグツールである拡散ターゲット(DT)の視覚化を導入します。
DT視覚化を通じて、世代のアーティファクト、矛盾を特定し、初期の拡散時のタイムステップが出力の多様性を不釣り合いに決定し、その後のステップが主に詳細を改善することを実証します。
これらの洞察に基づいて、多様性の蒸留を導入します。これは、効率的な蒸留モデルに移行する前に、最初の批判的なタイムステップのみに基本モデルを戦略的に使用するハイブリッド推論アプローチです。
私たちの実験は、この単純な変更により、多様性能力が基本モデルから蒸留モデルへの能力を回復するだけでなく、驚くべきことにそれを超え、蒸留推論のほぼ計算効率を維持し、すべて追加のトレーニングやモデルの変更を必要とせずに維持することを示しています。
私たちのコードとデータは、https://distillation.baulab.infoで入手できます

要約(オリジナル)

Distilled diffusion models suffer from a critical limitation: reduced sample diversity compared to their base counterparts. In this work, we uncover that despite this diversity loss, distilled models retain the fundamental concept representations of base models. We demonstrate control distillation – where control mechanisms like Concept Sliders and LoRAs trained on base models can be seamlessly transferred to distilled models and vice-versa, effectively distilling control without any retraining. This preservation of representational structure prompted our investigation into the mechanisms of diversity collapse during distillation. To understand how distillation affects diversity, we introduce Diffusion Target (DT) Visualization, an analysis and debugging tool that reveals how models predict final outputs at intermediate steps. Through DT-Visualization, we identify generation artifacts, inconsistencies, and demonstrate that initial diffusion timesteps disproportionately determine output diversity, while later steps primarily refine details. Based on these insights, we introduce diversity distillation – a hybrid inference approach that strategically employs the base model for only the first critical timestep before transitioning to the efficient distilled model. Our experiments demonstrate that this simple modification not only restores the diversity capabilities from base to distilled models but surprisingly exceeds it, while maintaining nearly the computational efficiency of distilled inference, all without requiring additional training or model modifications. Our code and data are available at https://distillation.baulab.info

arxiv情報

著者 Rohit Gandikota,David Bau
発行日 2025-03-13 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | Distilling Diversity and Control in Diffusion Models はコメントを受け付けていません

The Curse of Conditions: Analyzing and Improving Optimal Transport for Conditional Flow-Based Generation

要約

ミニバッチ最適な輸送カップリングは、無条件のフローマッチングでパスをまっすぐにします。
これにより、テスト時に通常の微分方程式を数値的に解くと、統合ステップが少なくなり、複雑でない数値ソルバーが使用できるため、計算的に要求の少ない推論につながります。
ただし、条件付き設定では、ミニバッチ最適輸送は不足しています。
これは、デフォルトの最適な輸送マッピングが条件を無視し、トレーニング中に条件付きでゆがんだ事前分布をもたらすためです。
対照的に、テスト時には、歪んだ事前に歪んだものにはアクセスできず、代わりに完全な、偏りのない事前分布からサンプリングします。
トレーニングとテストの間のこのギャップは、サブパフォーマンスにつながります。
このギャップを埋めるために、最適な輸送割り当てを計算するときにコストマトリックスに条件付き重み付け項を追加する条件付き最適輸送c^2otを提案します。
実験では、この単純な修正は、8gaussians-to moons、Cifar-10、Imagenet-32×32、およびImagenet-256×256の個別の条件と連続条件の両方で機能することを示しています。
私たちの方法は、異なる関数評価予算にわたる既存のベースラインと比較して、全体的に優れたパフォーマンスを発揮します。
コードはhttps://hkchengrex.github.io/c2otで入手できます

要約(オリジナル)

Minibatch optimal transport coupling straightens paths in unconditional flow matching. This leads to computationally less demanding inference as fewer integration steps and less complex numerical solvers can be employed when numerically solving an ordinary differential equation at test time. However, in the conditional setting, minibatch optimal transport falls short. This is because the default optimal transport mapping disregards conditions, resulting in a conditionally skewed prior distribution during training. In contrast, at test time, we have no access to the skewed prior, and instead sample from the full, unbiased prior distribution. This gap between training and testing leads to a subpar performance. To bridge this gap, we propose conditional optimal transport C^2OT that adds a conditional weighting term in the cost matrix when computing the optimal transport assignment. Experiments demonstrate that this simple fix works with both discrete and continuous conditions in 8gaussians-to-moons, CIFAR-10, ImageNet-32×32, and ImageNet-256×256. Our method performs better overall compared to the existing baselines across different function evaluation budgets. Code is available at https://hkchengrex.github.io/C2OT

arxiv情報

著者 Ho Kei Cheng,Alexander Schwing
発行日 2025-03-13 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | The Curse of Conditions: Analyzing and Improving Optimal Transport for Conditional Flow-Based Generation はコメントを受け付けていません

GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing

要約

現在の画像生成と編集方法は、主に視覚構成や明示的な操作について推論することなく、テキストプロンプトを直接入力として処理します。
私たちは、画像を出力する前に明示的な言語推論プロセスを通じて生成と編集を可能にする新しいパラダイムである、ジェネレーションチェーンオブシャーチ(GOT)を提示します。
このアプローチは、従来のテキストからイメージまでの生成と編集を、セマンティックな関係と空間的配置を分析する推論ガイド付きフレームワークに変換します。
GOTの​​定式化を定義し、セマンティック空間関係をキャプチャする詳細な推論チェーンを備えた9mを超えるサンプルを含む大規模なGOTデータセットを構築します。
GOTの​​利点を活用するために、QWEN2.5-VLを推論チェーン生成に統合する統合フレームワークを実装し、新しいセマンティック空間ガイダンスモジュールによって強化されたエンドツーエンドの拡散モデルを実装します。
実験は、GOTフレームワークが生成タスクと編集タスクの両方で優れたパフォーマンスを達成し、ベースラインよりも大幅に改善されていることを示しています。
さらに、当社のアプローチにより、インタラクティブな視覚生成が可能になり、ユーザーは正確な画像調整のための推論ステップを明示的に変更できます。
先駆者に、推論主導の視覚的生成と編集のための新しい方向性を獲得し、人間の意図とより適合する画像を作成しました。
将来の研究を促進するために、データセット、コード、および事前処理されたモデルをhttps://github.com/rongyaofang/gotで公開しています。

要約(オリジナル)

Current image generation and editing methods primarily process textual prompts as direct inputs without reasoning about visual composition and explicit operations. We present Generation Chain-of-Thought (GoT), a novel paradigm that enables generation and editing through an explicit language reasoning process before outputting images. This approach transforms conventional text-to-image generation and editing into a reasoning-guided framework that analyzes semantic relationships and spatial arrangements. We define the formulation of GoT and construct large-scale GoT datasets containing over 9M samples with detailed reasoning chains capturing semantic-spatial relationships. To leverage the advantages of GoT, we implement a unified framework that integrates Qwen2.5-VL for reasoning chain generation with an end-to-end diffusion model enhanced by our novel Semantic-Spatial Guidance Module. Experiments show our GoT framework achieves excellent performance on both generation and editing tasks, with significant improvements over baselines. Additionally, our approach enables interactive visual generation, allowing users to explicitly modify reasoning steps for precise image adjustments. GoT pioneers a new direction for reasoning-driven visual generation and editing, producing images that better align with human intent. To facilitate future research, we make our datasets, code, and pretrained models publicly available at https://github.com/rongyaofang/GoT.

arxiv情報

著者 Rongyao Fang,Chengqi Duan,Kun Wang,Linjiang Huang,Hao Li,Shilin Yan,Hao Tian,Xingyu Zeng,Rui Zhao,Jifeng Dai,Xihui Liu,Hongsheng Li
発行日 2025-03-13 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing はコメントを受け付けていません

Studying Classifier(-Free) Guidance From a Classifier-Centric Perspective

要約

分類器のないガイダンスは、拡散モデルを除去する条件付き発電の定番となっています。
ただし、分類器のないガイダンスの包括的な理解はまだありません。
この作業では、分類器のないガイダンスに関する新鮮な視点を提供するために、経験的研究を実施します。
具体的には、分類器のないガイダンスのみに焦点を当てるのではなく、ルート、つまり分類器のガイダンスに戻り、派生の重要な仮定を特定し、分類器の役割を理解するための体系的な研究を実施します。
分類器のガイダンスと分類器のないガイダンスの両方が、決定境界、つまり条件付き情報が通常絡み合って学習が困難な領域から除去拡散軌跡を押しのけることにより、条件付き生成を達成することがわかります。
この分類器中心の理解に基づいて、フローマッチングに基づいて構築された一般的なポストプロセスステップを提案して、主に決定境界周辺に、事前に訓練された除去モデルの学習分布と実際のデータ分布の間のギャップを縮小します。
さまざまなデータセットでの実験では、提案されたアプローチの有効性が検証されます。

要約(オリジナル)

Classifier-free guidance has become a staple for conditional generation with denoising diffusion models. However, a comprehensive understanding of classifier-free guidance is still missing. In this work, we carry out an empirical study to provide a fresh perspective on classifier-free guidance. Concretely, instead of solely focusing on classifier-free guidance, we trace back to the root, i.e., classifier guidance, pinpoint the key assumption for the derivation, and conduct a systematic study to understand the role of the classifier. We find that both classifier guidance and classifier-free guidance achieve conditional generation by pushing the denoising diffusion trajectories away from decision boundaries, i.e., areas where conditional information is usually entangled and is hard to learn. Based on this classifier-centric understanding, we propose a generic postprocessing step built upon flow-matching to shrink the gap between the learned distribution for a pre-trained denoising diffusion model and the real data distribution, majorly around the decision boundaries. Experiments on various datasets verify the effectiveness of the proposed approach.

arxiv情報

著者 Xiaoming Zhao,Alexander G. Schwing
発行日 2025-03-13 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Studying Classifier(-Free) Guidance From a Classifier-Centric Perspective はコメントを受け付けていません