Exploring Diffusion Transformer Designs via Grafting

要約

モデルアーキテクチャの設計には、オペレーター(注意、畳み込みなど)や構成(深さ、幅など)の選択などの決定が必要です。
ただし、これらの決定がモデルの品質に与える影響を評価するには、費用のかかる事前トレーニングが必要であり、建築調査が制限されます。
既存のコードに新しいソフトウェアがどのように構築されているかに触発されて、私たちは次のように尋ねます:新しいアーキテクチャデザインは、前処理されたモデルを使用して研究することができますか?
この目的のために、先生的な拡散変圧器(DIT)を編集するための簡単なアプローチであるグラフトを提示して、小さな計算予算の下で新しいアーキテクチャを実現します。
活性化行動と注意の局所性の分析によって通知され、モデルの品質に対する移植の影響を研究するために、DIT-XL/2設計に基づいてテストベッドを構築します。
このテストベッドを使用して、移植を介してハイブリッドデザインのファミリーを開発します。ソフトマックスの注意をゲートの畳み込みに置き換え、局所的な注意と線形注意を払い、MLPを可変膨張比と畳み込みバリアントに置き換えます。
特に、多くのハイブリッドデザインは、2%未満の前削減計算を使用して、良質(FID:2.38-2.64対DIT-XL/2で2.27)を達成します。
次に、テキスト間モデル(PIXART-SIGMA)を接ぎ木し、Genevalスコアが2%未満の1.43倍のスピードアップを達成します。
最後に、グラフトを介してシーケンシャル変圧器ブロックのすべてのペアを平行ブロックに変換することにより、DIT-XL/2を再構築するケーススタディを提示します。
これにより、モデルの深さが2倍減少し、同等の深さの他のモデルよりも優れた品質(FID:2.77)が得られます。
一緒に、オペレーターの交換からアーキテクチャの再編に至るまで、新しい拡散モデルの設計が前提条件のDITを移植することで調査できることを示します。
コードと接ぎ木モデル:https://grafting.stanford.edu

要約(オリジナル)

Designing model architectures requires decisions such as selecting operators (e.g., attention, convolution) and configurations (e.g., depth, width). However, evaluating the impact of these decisions on model quality requires costly pretraining, limiting architectural investigation. Inspired by how new software is built on existing code, we ask: can new architecture designs be studied using pretrained models? To this end, we present grafting, a simple approach for editing pretrained diffusion transformers (DiTs) to materialize new architectures under small compute budgets. Informed by our analysis of activation behavior and attention locality, we construct a testbed based on the DiT-XL/2 design to study the impact of grafting on model quality. Using this testbed, we develop a family of hybrid designs via grafting: replacing softmax attention with gated convolution, local attention, and linear attention, and replacing MLPs with variable expansion ratio and convolutional variants. Notably, many hybrid designs achieve good quality (FID: 2.38-2.64 vs. 2.27 for DiT-XL/2) using <2% pretraining compute. We then graft a text-to-image model (PixArt-Sigma), achieving a 1.43x speedup with less than a 2% drop in GenEval score. Finally, we present a case study that restructures DiT-XL/2 by converting every pair of sequential transformer blocks into parallel blocks via grafting. This reduces model depth by 2x and yields better quality (FID: 2.77) than other models of comparable depth. Together, we show that new diffusion model designs can be explored by grafting pretrained DiTs, with edits ranging from operator replacement to architecture restructuring. Code and grafted models: https://grafting.stanford.edu

arxiv情報

著者 Keshigeyan Chandrasegaran,Michael Poli,Daniel Y. Fu,Dongjun Kim,Lea M. Hadzic,Manling Li,Agrim Gupta,Stefano Massaroli,Azalia Mirhoseini,Juan Carlos Niebles,Stefano Ermon,Li Fei-Fei
発行日 2025-06-05 17:59:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Exploring Diffusion Transformer Designs via Grafting はコメントを受け付けていません

Single GPU Task Adaptation of Pathology Foundation Models for Whole Slide Image Analysis

要約

Pathology Foundationモデル(PFM)は、スライド画像全体(WSI)を分析するための強力なツールとして浮上しています。
ただし、特定の臨床タスクにこれらの前処理されたPFMを適応させると、主にギガピクセル画像の弱い(WSIレベル)ラベルのみが利用可能であるため、効果的なWSI分析に複数のインスタンス学習(MIL)パラダイムが必要です。
このペーパーでは、シングルgpu \ textbf {t} ask \ textbf {a} daptationの新しいアプローチを提案します。
提案されたアプローチは、MILアグリゲーターとPFMの個別の計算グラフを維持し、エンドツーエンドの適応中にダウンストリームタスク目標と整合する安定したトレーニングダイナミクスを作成します。
膀胱がんおよび肺腺癌の突然変異予測タスクで評価された施設およびTCGAコホートの肺腺癌は、H-Optimus-0(TAPFM)がベンチマークを上回ると、従来のアプローチを一貫してアウトパフォームします。
TAPFMは、実用的な変異のマルチラベル分類も効果的に処理します。
したがって、TAPFMは、さまざまな臨床アプリケーションの標準ハードウェアで実用的な強力な事前訓練を受けたPFMを適応させます。

要約(オリジナル)

Pathology foundation models (PFMs) have emerged as powerful tools for analyzing whole slide images (WSIs). However, adapting these pretrained PFMs for specific clinical tasks presents considerable challenges, primarily due to the availability of only weak (WSI-level) labels for gigapixel images, necessitating multiple instance learning (MIL) paradigm for effective WSI analysis. This paper proposes a novel approach for single-GPU \textbf{T}ask \textbf{A}daptation of \textbf{PFM}s (TAPFM) that uses vision transformer (\vit) attention for MIL aggregation while optimizing both for feature representations and attention weights. The proposed approach maintains separate computational graphs for MIL aggregator and the PFM to create stable training dynamics that align with downstream task objectives during end-to-end adaptation. Evaluated on mutation prediction tasks for bladder cancer and lung adenocarcinoma across institutional and TCGA cohorts, TAPFM consistently outperforms conventional approaches, with H-Optimus-0 (TAPFM) outperforming the benchmarks. TAPFM effectively handles multi-label classification of actionable mutations as well. Thus, TAPFM makes adaptation of powerful pre-trained PFMs practical on standard hardware for various clinical applications.

arxiv情報

著者 Neeraj Kumar,Swaraj Nanda,Siddharth Singi,Jamal Benhamida,David Kim,Jie-Fu Chen,Amir Momeni-Boroujeni,Gregory M. Goldgof,Gabriele Campanella,Chad Vanderbilt
発行日 2025-06-05 15:56:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Single GPU Task Adaptation of Pathology Foundation Models for Whole Slide Image Analysis はコメントを受け付けていません

MokA: Multimodal Low-Rank Adaptation for MLLMs

要約

この論文では、現在の最新のマルチモーダル微調整方法が主要な制限によって妨げられていることが明らかになりました。それらはLLMSから直接借用され、しばしばマルチモーダルシナリオの本質的な違いを無視し、すべてのモダリティの完全な利用にさえ影響を与えることさえあります。
私たちの経験的観察に触発された私たちは、単峰性の適応とクロスモーダルの適応は、MLLMの効果的な微調整に2つの重要な部分であると主張します。
この観点から、マルチモーダルに認識された効率的な微調整戦略であるマルチモーダル低ランク適応(MOKA)を提案します。
モダリティ固有のパラメーターによって非モーダル情報を圧縮しながら、クロスモーダル相互作用を明示的に強化し、単峰性とモーダルの両方の適応を確保します。
広範な実験では、3つの代表的なマルチモーダルシナリオ(オーディオビジュアルテキスト、ビジュアルテキスト、音声テキスト)と複数のLLMバックボーン(LLAMA2/3、QWEN2、QWEN2.5-VLなど)をカバーしています。
一貫した改善は、提案された方法の有効性と汎用性を示しています。
アブレーション研究と効率評価も、私たちの方法を完全に評価するために行われます。
全体として、MokaはMLLMを効率的に適応させるためのよりターゲットを絞ったソリューションを提供し、さらなる調査への道を開くと考えています。
プロジェクトページはhttps://gewu-lab.github.io/mokaにあります。

要約(オリジナル)

In this paper, we reveal that most current efficient multimodal fine-tuning methods are hindered by a key limitation: they are directly borrowed from LLMs, often neglecting the intrinsic differences of multimodal scenarios and even affecting the full utilization of all modalities. Inspired by our empirical observation, we argue that unimodal adaptation and cross-modal adaptation are two essential parts for the effective fine-tuning of MLLMs. From this perspective, we propose Multimodal low-rank Adaptation (MokA), a multimodal-aware efficient fine-tuning strategy that takes multimodal characteristics into consideration. It compresses unimodal information by modality-specific parameters while explicitly enhancing cross-modal interaction, ensuring both unimodal and cross-modal adaptation. Extensive experiments cover three representative multimodal scenarios (audio-visual-text, visual-text, and speech-text), and multiple LLM backbones (LLaMA2/3, Qwen2, Qwen2.5-VL, etc). Consistent improvements indicate the efficacy and versatility of the proposed method. Ablation studies and efficiency evaluation are also conducted to fully asses our method. Overall, we think MokA provides a more targeted solution for efficient adaptation of MLLMs, paving the way for further exploration. The project page is at https://gewu-lab.github.io/MokA.

arxiv情報

著者 Yake Wei,Yu Miao,Dongzhan Zhou,Di Hu
発行日 2025-06-05 16:04:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MokA: Multimodal Low-Rank Adaptation for MLLMs はコメントを受け付けていません

Vision-Based Autonomous MM-Wave Reflector Using ArUco-Driven Angle-of-Arrival Estimation

要約

非表示(NLOS)条件における信頼できるミリ波(MMWAVE)コミュニケーションは、特に都市部やインフラが制限された環境で、軍事および民間の両方の作戦にとって大きな課題です。
このペーパーでは、電動金属プレートを使用して動的にステアリング信号反射によりMMWAVEリンクの性能を高めるように設計されたビジョン支援自律リフレクターシステムを紹介します。
提案されたシステムは、単眼カメラを活用して、関連する送信機とレシーバーノードのARUCOマーカーを検出し、到着角度を推定し、リフレクターをリアルタイムで最適な信号のリダイレクトに合わせます。
このアプローチにより、目に見えるマーカーを備えた認証されたターゲットのみを提供し、意図しない信号曝露のリスクを減らすことにより、選択的なビームカバレッジが可能になります。
Raspberry PI 4および低電力ハードウェアの上に構築された設計されたプロトタイプは、外部インフラストラクチャやGPSに依存せずに自律的に動作します。
60 \での実験結果、GHzは、屋内環境で-65 dBのターゲットしきい値を上回る信号受信を維持する23 \、dBの平均ゲイン、および静的およびノー​​フレクターのベースラインをはるかに超えるターゲットしきい値を超える0.89の確率を示します。
これらの結果は、複雑で動的な環境における回復力と適応性のあるMMWave接続のシステムの可能性を示しています。

要約(オリジナル)

Reliable millimeter-wave (mmWave) communication in non-line-of-sight (NLoS) conditions remains a major challenge for both military and civilian operations, especially in urban or infrastructure-limited environments. This paper presents a vision-aided autonomous reflector system designed to enhance mmWave link performance by dynamically steering signal reflections using a motorized metallic plate. The proposed system leverages a monocular camera to detect ArUco markers on allied transmitter and receiver nodes, estimate their angles of arrival, and align the reflector in real time for optimal signal redirection. This approach enables selective beam coverage by serving only authenticated targets with visible markers and reduces the risk of unintended signal exposure. The designed prototype, built on a Raspberry Pi 4 and low-power hardware, operates autonomously without reliance on external infrastructure or GPS. Experimental results at 60\,GHz demonstrate a 23\,dB average gain in received signal strength and an 0.89 probability of maintaining signal reception above a target threshold of -65 dB in an indoor environment, far exceeding the static and no-reflector baselines. These results demonstrate the system’s potential for resilient and adaptive mmWave connectivity in complex and dynamic environments.

arxiv情報

著者 Josue Marroquin,Nan Inzali,Miles Dillon Lantz,Campbell Freeman,Amod Ashtekar,\\Ajinkya Umesh Mulik,Mohammed E Eltayeb
発行日 2025-06-05 16:07:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Vision-Based Autonomous MM-Wave Reflector Using ArUco-Driven Angle-of-Arrival Estimation はコメントを受け付けていません

Quantifying Cross-Modality Memorization in Vision-Language Models

要約

トレーニング中にニューラルネットワークがどのように、どのように覚えているかを理解することは、潜在的に機密情報の意図しない記憶の観点から、また実際の知識集約型タスクの効果的な知識習得の観点からも重要です。
以前の研究では、大規模な言語モデルでのテキストの記憶や拡散モデルでの画像暗記など、単一のモダリティ内の暗記を主に調査していますが、統一されたマルチモーダルモデルは実際のアプリケーションでますます一般的になっています。
この作業では、クロスモダリティの記憶のユニークな特徴に焦点を当て、ビジョン言語モデルを中心とした体系的な研究を実施します。
制御された実験を容易にするために、まず、多様な合成型の画像とテキストの説明を含む合成ペルソナデータセットを紹介します。
単一のモダリティでモデルをトレーニングし、他のパフォーマンスを評価することにより、事実の知識の記憶とクロスモーダル移転性を定量化します。
私たちの結果は、あるモダリティで学んだ事実が他のモダリティに転送されたことを明らかにしていますが、ソースの情報とターゲットのモダリティのリコール情報との間には大きなギャップが存在します。
さらに、このギャップは、より有能なモデル、マシンの学習、マルチホップケースなど、さまざまなシナリオに存在することがわかります。
最後に、この課題を軽減するためのベースライン方法を提案します。
私たちの研究が、より堅牢なマルチモーダル学習技術の開発に関する将来の研究を刺激して、クロスモーダルの移転性を高めることを願っています。

要約(オリジナル)

Understanding what and how neural networks memorize during training is crucial, both from the perspective of unintentional memorization of potentially sensitive information and from the standpoint of effective knowledge acquisition for real-world, knowledge-intensive tasks. While previous studies primarily investigate memorization within a single modality, such as text memorization in large language models or image memorization in diffusion models, unified multimodal models are becoming increasingly prevalent in practical applications. In this work, we focus on the unique characteristics of cross-modality memorization and conduct a systematic study centered on vision-language models. To facilitate controlled experiments, we first introduce a synthetic persona dataset comprising diverse synthetic person images and textual descriptions. We quantify factual knowledge memorization and cross-modal transferability by training models on a single modality and evaluating their performance in the other. Our results reveal that facts learned in one modality transfer to the other, but a significant gap exists between recalling information in the source and target modalities. Furthermore, we observe that this gap exists across various scenarios, including more capable models, machine unlearning, and the multi-hop case. At the end, we propose a baseline method to mitigate this challenge. We hope our study can inspire future research on developing more robust multimodal learning techniques to enhance cross-modal transferability.

arxiv情報

著者 Yuxin Wen,Yangsibo Huang,Tom Goldstein,Ravi Kumar,Badih Ghazi,Chiyuan Zhang
発行日 2025-06-05 16:10:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Quantifying Cross-Modality Memorization in Vision-Language Models はコメントを受け付けていません

Grounding Beyond Detection: Enhancing Contextual Understanding in Embodied 3D Grounding

要約

具体化された3D接地は、自我中心の視点から人間の指示に記載されているターゲットオブジェクトをローカライズすることを目的としています。
ほとんどの方法は通常、2段階のパラダイムに従います。このパラダイムでは、訓練された3D検出器の最適化されたバックボーンパラメーターを使用して、接地モデルを初期化します。
この研究では、基本的な質問を探ります。具体化された3D接地は、検出から十分な利益をもたらしますか?
この質問に答えるために、ターゲットカテゴリによってフィルタリングされた予測ボックスを使用して、検出モデルの接地性能を評価します。
驚くべきことに、命令固有のトレーニングのないこれらの検出モデルは、言語の指示で明示的にトレーニングされた接地モデルを上回ります。
これは、カテゴリレベルの具体化された3D接地でさえ、より微調整されたコンテキスト対応の接地は言うまでもなく、十分に解決されない可能性があることを示しています。
この発見に動機付けられて、私たちはDeTrクエリを検出と接地の両方のオブジェクト表現として共有し、基本的なカテゴリ分類とボックス検出の恩恵を受けることを可能にするDETRクエリを提案します。
このフレームワークに基づいて、命令関連の領域とクエリレベルのセマンティックをクエリ表現に組み込んだクエリごとの変調モジュールを強調する地域の活性化接地モジュールをさらに導入し、言語指示のコンテキスト認識の理解を強化します。
驚くべきことに、Degroundは、EmbodiedScan検証セットの全体的な精度で、最先端のモデルBIP3Dを7.52 \%よりも優れています。
ソースコードは、https://github.com/zyn213/degroundで公開されます。

要約(オリジナル)

Embodied 3D grounding aims to localize target objects described in human instructions from ego-centric viewpoint. Most methods typically follow a two-stage paradigm where a trained 3D detector’s optimized backbone parameters are used to initialize a grounding model. In this study, we explore a fundamental question: Does embodied 3D grounding benefit enough from detection? To answer this question, we assess the grounding performance of detection models using predicted boxes filtered by the target category. Surprisingly, these detection models without any instruction-specific training outperform the grounding models explicitly trained with language instructions. This indicates that even category-level embodied 3D grounding may not be well resolved, let alone more fine-grained context-aware grounding. Motivated by this finding, we propose DEGround, which shares DETR queries as object representation for both DEtection and Grounding and enables the grounding to benefit from basic category classification and box detection. Based on this framework, we further introduce a regional activation grounding module that highlights instruction-related regions and a query-wise modulation module that incorporates sentence-level semantic into the query representation, strengthening the context-aware understanding of language instructions. Remarkably, DEGround outperforms state-of-the-art model BIP3D by 7.52\% at overall accuracy on the EmbodiedScan validation set. The source code will be publicly available at https://github.com/zyn213/DEGround.

arxiv情報

著者 Yani Zhang,Dongming Wu,Hao Shi,Yingfei Liu,Tiancai Wang,Haoqiang Fan,Xingping Dong
発行日 2025-06-05 16:11:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Grounding Beyond Detection: Enhancing Contextual Understanding in Embodied 3D Grounding はコメントを受け付けていません

DREAM: Disentangling Risks to Enhance Safety Alignment in Multimodal Large Language Models

要約

マルチモーダル大手言語モデル(MLLM)は、視覚データとテキストデータの統合により、独自の安全上の課題を引き起こし、それにより潜在的な攻撃と複雑なリスクの組み合わせの新しい次元が導入されます。
この論文では、マルチモーダル入力内の段階的な推論を通じてリスクを解き放つことを目的とした詳細な分析から始めます。
系統的なマルチモーダルリスクの解体がMLLMのリスク認識を大幅に向上させることがわかります。
マルチモーダルリスク解体の強力な識別能力を活用することにより、\ textbf {dream}(\ textbf {\ textbf {d} isentangling \ textbf {r} isks to \ textbf {e} nhance Safety \ textbf {a} lmment {a} lmimment to \ textbf {e} nhance safety \ {r} isks to \ textbf {e} lmintをさらに紹介します。
これにより、AIフィードバック(RLAIF)からの監視された微調整および反復強化学習を通じて、MLLMの安全アライメントが強化されます。
実験結果は、夢が通常のタスク(すなわち過剰過剰)のパフォーマンスを損なうことなく、推論とトレーニングの両方のフェーズで安全性を大幅に向上させ、GPT-4Vと比較してSIUO SAFE \&EFFECTINEスコアの16.17 \%の改善を達成することを示しています。
データとコードはhttps://github.com/kizna1ver/dreamで入手できます。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) pose unique safety challenges due to their integration of visual and textual data, thereby introducing new dimensions of potential attacks and complex risk combinations. In this paper, we begin with a detailed analysis aimed at disentangling risks through step-by-step reasoning within multimodal inputs. We find that systematic multimodal risk disentanglement substantially enhances the risk awareness of MLLMs. Via leveraging the strong discriminative abilities of multimodal risk disentanglement, we further introduce \textbf{DREAM} (\textit{\textbf{D}isentangling \textbf{R}isks to \textbf{E}nhance Safety \textbf{A}lignment in \textbf{M}LLMs}), a novel approach that enhances safety alignment in MLLMs through supervised fine-tuning and iterative Reinforcement Learning from AI Feedback (RLAIF). Experimental results show that DREAM significantly boosts safety during both inference and training phases without compromising performance on normal tasks (namely oversafety), achieving a 16.17\% improvement in the SIUO safe\&effective score compared to GPT-4V. The data and code are available at https://github.com/Kizna1ver/DREAM.

arxiv情報

著者 Jianyu Liu,Hangyu Guo,Ranjie Duan,Xingyuan Bu,Yancheng He,Shilong Li,Hui Huang,Jiaheng Liu,Yucheng Wang,Chenchen Jing,Xingwei Qu,Xiao Zhang,Yingshui Tan,Yanan Wu,Jihao Gu,Yangguang Li,Jianke Zhu
発行日 2025-06-05 16:13:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | DREAM: Disentangling Risks to Enhance Safety Alignment in Multimodal Large Language Models はコメントを受け付けていません

OGGSplat: Open Gaussian Growing for Generalizable Reconstruction with Expanded Field-of-View

要約

スパースビューからセマンティックアウェア3Dシーンを再構築することは、仮想現実や具体化されたAIなどの新興アプリケーションの要求によって推進される挑戦的でありながら不可欠な研究の方向性です。
既存のシーンごとの最適化方法には、密な入力ビューが必要であり、高い計算コストが発生しますが、一般化可能なアプローチは、入力ビューコーンの外側の領域を再構築するのに苦労することがよくあります。
この論文では、一般化可能な3D再構成の視野を拡大するオープンガウス成長方法であるOggsplatを提案します。
私たちの重要な洞察は、オープンガウスのセマンティックな属性が画像の外挿に強力な事前に提供し、セマンティックの一貫性と視覚的妥当性の両方を可能にすることです。
具体的には、オープンガウスがスパースビューから初期化されると、選択されたレンダリングビューに適用されるRGBセマンチックな一貫したインペインティングモジュールを導入します。
このモジュールは、画像拡散モデルとセマンティック拡散モデルとの間の双方向制御を実施します。
その後、塗装された領域は、効率的でプログレッシブなガウスパラメーターの最適化のために3Dスペースに戻されます。
私たちの方法を評価するために、再構築されたオープンボキャブラリーシーンのセマンティックと生成の両方の品質を評価するガウスの中断(GO)ベンチマークを確立します。
Oggsplatは、スマートフォンカメラから直接キャプチャされた2つのビュー画像が提供された場合、有望なセマンティックアウェアシーン再構成機能も示しています。

要約(オリジナル)

Reconstructing semantic-aware 3D scenes from sparse views is a challenging yet essential research direction, driven by the demands of emerging applications such as virtual reality and embodied AI. Existing per-scene optimization methods require dense input views and incur high computational costs, while generalizable approaches often struggle to reconstruct regions outside the input view cone. In this paper, we propose OGGSplat, an open Gaussian growing method that expands the field-of-view in generalizable 3D reconstruction. Our key insight is that the semantic attributes of open Gaussians provide strong priors for image extrapolation, enabling both semantic consistency and visual plausibility. Specifically, once open Gaussians are initialized from sparse views, we introduce an RGB-semantic consistent inpainting module applied to selected rendered views. This module enforces bidirectional control between an image diffusion model and a semantic diffusion model. The inpainted regions are then lifted back into 3D space for efficient and progressive Gaussian parameter optimization. To evaluate our method, we establish a Gaussian Outpainting (GO) benchmark that assesses both semantic and generative quality of reconstructed open-vocabulary scenes. OGGSplat also demonstrates promising semantic-aware scene reconstruction capabilities when provided with two view images captured directly from a smartphone camera.

arxiv情報

著者 Yanbo Wang,Ziyi Wang,Wenzhao Zheng,Jie Zhou,Jiwen Lu
発行日 2025-06-05 16:17:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | OGGSplat: Open Gaussian Growing for Generalizable Reconstruction with Expanded Field-of-View はコメントを受け付けていません

Follow-Your-Motion: Video Motion Transfer via Efficient Spatial-Temporal Decoupled Finetuning

要約

最近、ビデオ拡散トランスのブレークスルーは、多様な運動世代に顕著な能力を示しています。
モーション移動タスクに関しては、現在の方法は主に2段階低ランク適応(LORAS)Finetuningを使用して、パフォーマンスを向上させます。
ただし、既存の適応ベースの動き転送は、大きなビデオ拡散トランスに適用されると、動きの矛盾と調整の非効率性に依然として苦しんでいます。
3D注意演算子に固有の空間的カップリングにより、生成されたビデオと入力ビデオの間の動きの一貫性を維持するための素朴な2段階のLoraチューニングは闘争します。
さらに、両方の段階で時間のかかる微調整プロセスが必要です。
これらの問題に取り組むために、私たちは、複雑な動きを合成するための強力なビデオ拡散トランスを獲得する効率的な2段階のビデオモーション転送フレームワークであるフォローモーションを提案します。
2番目のトレーニング段階では、スパースモーションサンプリングと適応ロープを設計して、チューニング速度を加速します。
このフィールドのベンチマークの欠如に対処するために、クリエイティブカメラの動き、単一オブジェクトの動き、複数のオブジェクトモーション、複雑な人間の動きなど、多様な動きを含む包括的なベンチマークであるMotionBenchを導入します。
MotionBenchの広範な評価を示して、フォローモーションの優位性を検証します。

要約(オリジナル)

Recently, breakthroughs in the video diffusion transformer have shown remarkable capabilities in diverse motion generations. As for the motion-transfer task, current methods mainly use two-stage Low-Rank Adaptations (LoRAs) finetuning to obtain better performance. However, existing adaptation-based motion transfer still suffers from motion inconsistency and tuning inefficiency when applied to large video diffusion transformers. Naive two-stage LoRA tuning struggles to maintain motion consistency between generated and input videos due to the inherent spatial-temporal coupling in the 3D attention operator. Additionally, they require time-consuming fine-tuning processes in both stages. To tackle these issues, we propose Follow-Your-Motion, an efficient two-stage video motion transfer framework that finetunes a powerful video diffusion transformer to synthesize complex motion.Specifically, we propose a spatial-temporal decoupled LoRA to decouple the attention architecture for spatial appearance and temporal motion processing. During the second training stage, we design the sparse motion sampling and adaptive RoPE to accelerate the tuning speed. To address the lack of a benchmark for this field, we introduce MotionBench, a comprehensive benchmark comprising diverse motion, including creative camera motion, single object motion, multiple object motion, and complex human motion. We show extensive evaluations on MotionBench to verify the superiority of Follow-Your-Motion.

arxiv情報

著者 Yue Ma,Yulong Liu,Qiyuan Zhu,Ayden Yang,Kunyu Feng,Xinhua Zhang,Zhifeng Li,Sirui Han,Chenyang Qi,Qifeng Chen
発行日 2025-06-05 16:18:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Follow-Your-Motion: Video Motion Transfer via Efficient Spatial-Temporal Decoupled Finetuning はコメントを受け付けていません

Towards Vision-Language-Garment Models For Web Knowledge Garment Understanding and Generation

要約

マルチモーダルファンデーションモデルは強力な一般化を実証していますが、衣服の生成などの専門的なドメインに知識を移転する能力は未定です。
テキストの説明と視覚的な画像からの衣服を合成するビジョン言語学モデルであるVLGを紹介します。
私たちの実験は、VLGのゼロショット一般化を評価し、Webスケールの推論を目に見えない衣服のスタイルとプロンプトに転送する能力を調査します。
予備的な結果は、有望な転送能力を示しており、マルチモーダルファンデーションモデルがファッションデザインなどの特殊なドメインに効果的に適応する可能性を強調しています。

要約(オリジナル)

Multimodal foundation models have demonstrated strong generalization, yet their ability to transfer knowledge to specialized domains such as garment generation remains underexplored. We introduce VLG, a vision-language-garment model that synthesizes garments from textual descriptions and visual imagery. Our experiments assess VLG’s zero-shot generalization, investigating its ability to transfer web-scale reasoning to unseen garment styles and prompts. Preliminary results indicate promising transfer capabilities, highlighting the potential for multimodal foundation models to adapt effectively to specialized domains like fashion design.

arxiv情報

著者 Jan Ackermann,Kiyohiro Nakayama,Guandao Yang,Tong Wu,Gordon Wetzstein
発行日 2025-06-05 16:22:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Towards Vision-Language-Garment Models For Web Knowledge Garment Understanding and Generation はコメントを受け付けていません