VFX Creator: Animated Visual Effect Generation with Controllable Diffusion Transformer

要約

魔法と幻想を作成することは、映画製作の最もスリリングな側面の1つであり、視覚効果(VFX)は忘れられない映画の経験の背後にある大国として機能します。
生成的人工知能の最近の進歩は、一般的な画像とビデオの統合の進歩を促進していますが、制御可能なVFX生成の領域は比較的目立たないままです。
この作業では、画像アニメーションとしてアニメーションVFX生成の新しいパラダイムを提案します。ここでは、ユーザーフレンドリーなテキスト説明と静的参照画像から動的効果が生成されます。
私たちの作業は、2つの主要な貢献をしています。(i)Open-VFX、テキストの説明、空間条件付けのためのインスタンスセグメンテーションマスク、および時間制御の開始時のタイムスタンプが注釈が付けられた15の多様な効果カテゴリにまたがる最初の高品質のVFXビデオデータセット。
(ii)VFX作成者、ビデオ拡散トランスに基づくシンプルで効果的な制御可能なVFX生成フレームワーク。
このモデルには、空間的および時間制御可能なLORAアダプターが組み込まれており、最小限のトレーニングビデオが必要です。
具体的には、プラグアンドプレイマスク制御モジュールはインスタンスレベルの空間操作を可能にし、テキストエンコーダーと一緒に拡散プロセスに埋め込まれたトークン化された開始モーションタイムスタンプは、効果のタイミングとペースを正確に一時的に制御できます。
オープンVFXテストセットでの広範な実験は、現実的かつ動的な効果を生み出す上で提案されたシステムの優位性を示しており、空間的および時間的制御性の両方で最先端のパフォーマンスと一般化能力を達成します。
さらに、時間制御の精度を評価するために特殊なメトリックを導入します。
伝統的なVFXテクニックを生成的アプローチでブリッジングすることにより、VFX作成者は、効率的で高品質のビデオ効果生成の新しい可能性を解き放ち、高度なVFXをより多くの視聴者がアクセスできるようにします。

要約(オリジナル)

Crafting magic and illusions is one of the most thrilling aspects of filmmaking, with visual effects (VFX) serving as the powerhouse behind unforgettable cinematic experiences. While recent advances in generative artificial intelligence have driven progress in generic image and video synthesis, the domain of controllable VFX generation remains relatively underexplored. In this work, we propose a novel paradigm for animated VFX generation as image animation, where dynamic effects are generated from user-friendly textual descriptions and static reference images. Our work makes two primary contributions: (i) Open-VFX, the first high-quality VFX video dataset spanning 15 diverse effect categories, annotated with textual descriptions, instance segmentation masks for spatial conditioning, and start-end timestamps for temporal control. (ii) VFX Creator, a simple yet effective controllable VFX generation framework based on a Video Diffusion Transformer. The model incorporates a spatial and temporal controllable LoRA adapter, requiring minimal training videos. Specifically, a plug-and-play mask control module enables instance-level spatial manipulation, while tokenized start-end motion timestamps embedded in the diffusion process, alongside the text encoder, allow precise temporal control over effect timing and pace. Extensive experiments on the Open-VFX test set demonstrate the superiority of the proposed system in generating realistic and dynamic effects, achieving state-of-the-art performance and generalization ability in both spatial and temporal controllability. Furthermore, we introduce a specialized metric to evaluate the precision of temporal control. By bridging traditional VFX techniques with generative approaches, VFX Creator unlocks new possibilities for efficient and high-quality video effect generation, making advanced VFX accessible to a broader audience.

arxiv情報

著者 Xinyu Liu,Ailing Zeng,Wei Xue,Harry Yang,Wenhan Luo,Qifeng Liu,Yike Guo
発行日 2025-04-01 07:54:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VFX Creator: Animated Visual Effect Generation with Controllable Diffusion Transformer はコメントを受け付けていません

RainyGS: Efficient Rain Synthesis with Physically-Based Gaussian Splatting

要約

物理的に修正された方法で、動的な雨効果を野生のシーンに追加する問題を考慮します。
シーンモデリングの最近の進歩は大きな進歩を遂げており、NERFおよび3DGSテクニックは複雑なシーンを再構築するための強力なツールとして浮上しています。
ただし、新しいビュー合成には効果的ですが、これらの方法は通常、物理ベースの雨シミュレーションなどのタスクを編集する挑戦的なシーンに苦労しています。
対照的に、従来の物理学ベースのシミュレーションは、雨滴やスプラッシュなどの現実的な雨の効果を生成する可能性がありますが、多くの場合、熟練したアーティストに頼って高忠実度のシーンを慎重に設定します。
このプロセスには、柔軟性とスケーラビリティが欠けており、その適用性をより広範なオープンワールド環境に制限します。
この作業では、物理学ベースのモデリングと3DGの両方の強度を活用して、オープンワールドシーンで物理的な精度を持ってフォトリアリスティックでダイナミックな雨効果を生成する新しいアプローチであるRainygsを紹介します。
私たちの方法の中核は、高速3DGSレンダリングフレームワーク内の物理ベースの雨滴と浅い水シミュレーション技術の統合であり、雨滴の挙動、スプラッシュ、および反射の現実的で効率的なシミュレーションを可能にします。
私たちの方法は、30 fpsを超える雨の効果の合成をサポートし、ユーザーが軽い霧雨から激しい土砂降りまで、雨の強度を柔軟に制御できるようにします。
Rainygsは、現実世界の屋外シーンと大規模な運転シナリオの両方で効果的に機能し、最新の方法と比較してより多くのフォトリアリスティックで身体的にacccurate雨の雨効果を提供することを実証します。
プロジェクトページはhttps://pku-vcl-geometry.github.io/rainygs/にあります

要約(オリジナル)

We consider the problem of adding dynamic rain effects to in-the-wild scenes in a physically-correct manner. Recent advances in scene modeling have made significant progress, with NeRF and 3DGS techniques emerging as powerful tools for reconstructing complex scenes. However, while effective for novel view synthesis, these methods typically struggle with challenging scene editing tasks, such as physics-based rain simulation. In contrast, traditional physics-based simulations can generate realistic rain effects, such as raindrops and splashes, but they often rely on skilled artists to carefully set up high-fidelity scenes. This process lacks flexibility and scalability, limiting its applicability to broader, open-world environments. In this work, we introduce RainyGS, a novel approach that leverages the strengths of both physics-based modeling and 3DGS to generate photorealistic, dynamic rain effects in open-world scenes with physical accuracy. At the core of our method is the integration of physically-based raindrop and shallow water simulation techniques within the fast 3DGS rendering framework, enabling realistic and efficient simulations of raindrop behavior, splashes, and reflections. Our method supports synthesizing rain effects at over 30 fps, offering users flexible control over rain intensity — from light drizzles to heavy downpours. We demonstrate that RainyGS performs effectively for both real-world outdoor scenes and large-scale driving scenarios, delivering more photorealistic and physically-accurate rain effects compared to state-of-the-art methods. Project page can be found at https://pku-vcl-geometry.github.io/RainyGS/

arxiv情報

著者 Qiyu Dai,Xingyu Ni,Qianfan Shen,Wenzheng Chen,Baoquan Chen,Mengyu Chu
発行日 2025-04-01 08:06:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | RainyGS: Efficient Rain Synthesis with Physically-Based Gaussian Splatting はコメントを受け付けていません

AnyTouch: Learning Unified Static-Dynamic Representation across Multiple Visuo-tactile Sensors

要約

Visuo-Tactileセンサーは、人間の触覚の知覚をエミュレートすることを目的としており、ロボットがオブジェクトを正確に理解し操作できるようにします。
時間が経つにつれて、多くの細心の注意を払って設計された視覚触覚センサーがロボットシステムに統合されており、さまざまなタスクの完成を支援しています。
ただし、これらの低標準化された視覚触覚センサーの明確なデータ特性は、強力な触覚知覚システムの確立を妨げます。
この問題に対処するための鍵は、統一されたマルチセンサー表現を学習し、それによりセンサーを統合し、それらの間の触覚知識移転を促進することにあると考えています。
この性質の統一された表現を実現するために、4つの異なるVisuo Tactileセンサーから整列したマルチモーダルマルチセンサー触覚データセットであるTacquadを紹介します。これにより、さまざまなセンサーの明示的な統合が可能です。
人間は、テクスチャや圧力の変化などの多様な触覚情報を取得することにより、物理的環境を認識していることを認識して、静的視点と動的な視点の両方から統一されたマルチセンサー表現を学習することをさらに提案します。
触覚画像とビデオを統合することにより、包括的な知覚能力の強化と効果的なクロスセンサー転送を可能にすることを目的としたマルチレベル構造を持つ統一された静的マルチセンサー表現学習フレームワークであるAnyTouchを提示します。
このマルチレベルアーキテクチャは、マスクされたモデリングを介して触覚データからピクセルレベルの詳細をキャプチャし、マルチモーダルアラインメントとクロスセンサーマッチングを通じてセマンティックレベルのセンサーに依存する機能を学習することにより、知覚と転送性を向上させます。
マルチセンサーの転送可能性の包括的な分析を提供し、さまざまなデータセットおよび実際の注入タスクでメソッドを検証します。
実験結果は、私たちの方法が既存の方法を上回り、さまざまなセンサーにわたって優れた静的および動的な知覚機能を示すことを示しています。

要約(オリジナル)

Visuo-tactile sensors aim to emulate human tactile perception, enabling robots to precisely understand and manipulate objects. Over time, numerous meticulously designed visuo-tactile sensors have been integrated into robotic systems, aiding in completing various tasks. However, the distinct data characteristics of these low-standardized visuo-tactile sensors hinder the establishment of a powerful tactile perception system. We consider that the key to addressing this issue lies in learning unified multi-sensor representations, thereby integrating the sensors and promoting tactile knowledge transfer between them. To achieve unified representation of this nature, we introduce TacQuad, an aligned multi-modal multi-sensor tactile dataset from four different visuo-tactile sensors, which enables the explicit integration of various sensors. Recognizing that humans perceive the physical environment by acquiring diverse tactile information such as texture and pressure changes, we further propose to learn unified multi-sensor representations from both static and dynamic perspectives. By integrating tactile images and videos, we present AnyTouch, a unified static-dynamic multi-sensor representation learning framework with a multi-level structure, aimed at both enhancing comprehensive perceptual abilities and enabling effective cross-sensor transfer. This multi-level architecture captures pixel-level details from tactile data via masked modeling and enhances perception and transferability by learning semantic-level sensor-agnostic features through multi-modal alignment and cross-sensor matching. We provide a comprehensive analysis of multi-sensor transferability, and validate our method on various datasets and in the real-world pouring task. Experimental results show that our method outperforms existing methods, exhibits outstanding static and dynamic perception capabilities across various sensors.

arxiv情報

著者 Ruoxuan Feng,Jiangyu Hu,Wenke Xia,Tianci Gao,Ao Shen,Yuhao Sun,Bin Fang,Di Hu
発行日 2025-04-01 08:17:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | AnyTouch: Learning Unified Static-Dynamic Representation across Multiple Visuo-tactile Sensors はコメントを受け付けていません

StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation

要約

大規模な再構成と生成モデルの最近の進歩により、シーンの再構築と新規ビューの生成が大幅に改善されました。
ただし、制限の計算により、これらの大きなモデルとの各推論は小さな領域に限定されているため、長距離の一貫したシーン生成が困難になります。
これに対処するために、長距離シーン生成のために自動脱着の方法で事前に訓練されたビデオ拡散モデルを採用する新しいフレームワークであるStargenを提案します。
各ビデオクリップの生成は、空間的に隣接する画像の3Dワーピングと、以前に生成されたクリップからの時間的に重複する画像を条件付け、正確なポーズコントロールを備えた長距離シーン生成の時空間的な一貫性を改善します。
時空間的条件は、さまざまな入力条件と互換性があり、まばらなビュー補間、永続的なビューの生成、レイアウト条件付けの都市生成など、多様なタスクを促進します。
定量的および定性的評価は、最先端の方法と比較して、Stargenの優れたスケーラビリティ、忠実度、およびポーズ精度を示しています。
プロジェクトページ:https://zju3dv.github.io/stargen。

要約(オリジナル)

Recent advances in large reconstruction and generative models have significantly improved scene reconstruction and novel view generation. However, due to compute limitations, each inference with these large models is confined to a small area, making long-range consistent scene generation challenging. To address this, we propose StarGen, a novel framework that employs a pre-trained video diffusion model in an autoregressive manner for long-range scene generation. The generation of each video clip is conditioned on the 3D warping of spatially adjacent images and the temporally overlapping image from previously generated clips, improving spatiotemporal consistency in long-range scene generation with precise pose control. The spatiotemporal condition is compatible with various input conditions, facilitating diverse tasks, including sparse view interpolation, perpetual view generation, and layout-conditioned city generation. Quantitative and qualitative evaluations demonstrate StarGen’s superior scalability, fidelity, and pose accuracy compared to state-of-the-art methods. Project page: https://zju3dv.github.io/StarGen.

arxiv情報

著者 Shangjin Zhai,Zhichao Ye,Jialin Liu,Weijian Xie,Jiaqi Hu,Zhen Peng,Hua Xue,Danpeng Chen,Xiaomeng Wang,Lei Yang,Nan Wang,Haomin Liu,Guofeng Zhang
発行日 2025-04-01 08:18:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation はコメントを受け付けていません

ControlSR: Taming Diffusion Models for Consistent Real-World Image Super Resolution

要約

ControlSRは、一貫した実世界の画像超解像度(Real-ISR)の拡散モデルを飼いならすことができる新しい方法を提示します。
以前のREAL-ISRモデルは、テキストから画像へのより生成的な事前拡散モデルをアクティブにして、出力の高解像度(HR)画像をより良く見えるようにする方法に主に焦点を当てています。
ただし、これらの方法は生成プライアーに依存しすぎているため、出力画像の内容は入力LRの内容と矛盾することがよくあります。
上記の問題を軽減するために、この作業では、LR情報を効果的に利用して潜在空間のControlNetからコントロール信号に強い制約を課すことにより、拡散モデルを飼いならします。
私たちの方法は、より高品質の制御信号を生成できることを示しています。これにより、超解像の結果がLRイメージとより一致し、より明確な視覚的結果につながることがわかります。
さらに、LR情報を使用して潜在空間に制約を課す推論戦略も提案し、忠実度と生成能力の同時改善を可能にします。
実験は、我々のモデルがいくつかのテストセットで複数のメトリックでより良いパフォーマンスを達成し、既存の方法よりもLR画像でより一貫したSR結果を生成できることを示しています。
私たちのコードは、https://github.com/hvision-nku/controlsrで入手できます。

要約(オリジナル)

We present ControlSR, a new method that can tame Diffusion Models for consistent real-world image super-resolution (Real-ISR). Previous Real-ISR models mostly focus on how to activate more generative priors of text-to-image diffusion models to make the output high-resolution (HR) images look better. However, since these methods rely too much on the generative priors, the content of the output images is often inconsistent with the input LR ones. To mitigate the above issue, in this work, we tame Diffusion Models by effectively utilizing LR information to impose stronger constraints on the control signals from ControlNet in the latent space. We show that our method can produce higher-quality control signals, which enables the super-resolution results to be more consistent with the LR image and leads to clearer visual results. In addition, we also propose an inference strategy that imposes constraints in the latent space using LR information, allowing for the simultaneous improvement of fidelity and generative ability. Experiments demonstrate that our model can achieve better performance across multiple metrics on several test sets and generate more consistent SR results with LR images than existing methods. Our code is available at https://github.com/HVision-NKU/ControlSR.

arxiv情報

著者 Yuhao Wan,Peng-Tao Jiang,Qibin Hou,Hao Zhang,Jinwei Chen,Ming-Ming Cheng,Bo Li
発行日 2025-04-01 08:31:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ControlSR: Taming Diffusion Models for Consistent Real-World Image Super Resolution はコメントを受け付けていません

Mr. DETR: Instructive Multi-Route Training for Detection Transformers

要約

既存の方法は、補助的な1対多くの割り当てを組み込むことにより、検出トランスのトレーニングを強化します。
この作業では、モデルをマルチタスクフレームワークとして扱い、同時に1対1の予測を実行します。
これら2つのトレーニングターゲットにわたって、変圧器デコーダーの各コンポーネントの役割を調査します。
私たちの経験的結果は、デコーダー内の独立したコンポーネントは、他のコンポーネントが共有されている場合でも、両方のターゲットを同時に効果的に学習できることを示しています。
この発見は、マルチルートトレーニングメカニズムを提案することにつながり、1対1の予測のための主要なルートと、1対1の予測のための2つの補助トレーニングルートを特徴としています。
私たちは、1対多くの予測のためにオブジェクトクエリを動的かつ柔軟に導く、新しい有益な自己触たちでトレーニングメカニズムを強化します。
補助ルートは推論中に削除され、モデルアーキテクチャや推論コストに影響を与えないようにします。
さまざまなベースラインで広範な実験を行い、図1に示すように一貫した改善を達成します。プロジェクトページ:https://visual-ai.github.io/mrdetr

要約(オリジナル)

Existing methods enhance the training of detection transformers by incorporating an auxiliary one-to-many assignment. In this work, we treat the model as a multi-task framework, simultaneously performing one-to-one and one-to-many predictions. We investigate the roles of each component in the transformer decoder across these two training targets, including self-attention, cross-attention, and feed-forward network. Our empirical results demonstrate that any independent component in the decoder can effectively learn both targets simultaneously, even when other components are shared. This finding leads us to propose a multi-route training mechanism, featuring a primary route for one-to-one prediction and two auxiliary training routes for one-to-many prediction. We enhance the training mechanism with a novel instructive self-attention that dynamically and flexibly guides object queries for one-to-many prediction. The auxiliary routes are removed during inference, ensuring no impact on model architecture or inference cost. We conduct extensive experiments on various baselines, achieving consistent improvements as shown in Figure 1. Project page: https://visual-ai.github.io/mrdetr

arxiv情報

著者 Chang-Bin Zhang,Yujie Zhong,Kai Han
発行日 2025-04-01 08:32:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Mr. DETR: Instructive Multi-Route Training for Detection Transformers はコメントを受け付けていません

Local Information Matters: Inference Acceleration For Grounded Conversation Generation Models Through Adaptive Local-Aware Token Pruning

要約

接地会話生成(GCG)は、モデルが対応するオブジェクトセグメンテーションマスクとシームレスに絡み合って自然言語応答を生成する必要がある新しいビジョン言語タスクです。
GLAMMやOMG-llavaなどの最近のモデルは、ピクセルレベルの接地を達成しますが、多数の視覚トークンを処理するためにかなりの計算コストが発生します。
FastVやPyramiddropなどの既存のトークン剪定方法は、正確な接地に重要なローカル視覚機能を保存できず、GCGタスクのパフォーマンスが大幅に低下しました。
これに対処するために、ローカルオブジェクト情報に優先順位を付けることでGCGモデルを加速するシンプルで効果的なフレームワークである、適応型ローカルアウェアトークンプルーニング(ALTP)を提案します。
ALTPは、2つの重要なコンポーネントを導入します。(1)詳細密度キャプチャ(DDC)。これは、スーパーピクセルセグメンテーションを使用してオブジェクト中心の領域にトークンを保持し、細粒の詳細を維持し、(2)動的密度形成(DDF)を保持します。
Grandf Datasetでの広範な実験は、GLAMMモデルとOMG-Lolavaモデルの両方で、ALTPがFastVやPyramidropなどの既存のトークン剪定方法を大幅に上回ることを示しています。
特に、GLAMMに適用すると、ALTPは視覚トークンの90%減少を達成し、AP50が4.9%改善し、ピラミドロップと比較してRecallが5.0%改善されます。
同様に、OMG-llavaでは、ALTPはPDROPと比較して90%のトークン削減でAPを2.1%、MIOUを3.0%改善します。

要約(オリジナル)

Grounded Conversation Generation (GCG) is an emerging vision-language task that requires models to generate natural language responses seamlessly intertwined with corresponding object segmentation masks. Recent models, such as GLaMM and OMG-LLaVA, achieve pixel-level grounding but incur significant computational costs due to processing a large number of visual tokens. Existing token pruning methods, like FastV and PyramidDrop, fail to preserve the local visual features critical for accurate grounding, leading to substantial performance drops in GCG tasks. To address this, we propose Adaptive Local-Aware Token Pruning (ALTP), a simple yet effective framework that accelerates GCG models by prioritizing local object information. ALTP introduces two key components: (1) Detail Density Capture (DDC), which uses superpixel segmentation to retain tokens in object-centric regions, preserving fine-grained details, and (2) Dynamic Density Formation (DDF), which dynamically allocates tokens based on information density, ensuring higher retention in semantically rich areas. Extensive experiments on the GranDf dataset demonstrate that ALTP significantly outperforms existing token pruning methods, such as FastV and PyramidDrop, on both GLaMM and OMG-LLaVA models. Notably, when applied to GLaMM, ALTP achieves a 90% reduction in visual tokens with a 4.9% improvement in AP50 and a 5.0% improvement in Recall compared to PyramidDrop. Similarly, on OMG-LLaVA, ALTP improves AP by 2.1% and mIOU by 3.0% at a 90% token reduction compared with PDrop.

arxiv情報

著者 Bizhe Bai,Jianjian Cao,Yadan Luo,Tao Chen
発行日 2025-04-01 08:34:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Local Information Matters: Inference Acceleration For Grounded Conversation Generation Models Through Adaptive Local-Aware Token Pruning はコメントを受け付けていません

Stable-Makeup: When Real-World Makeup Transfer Meets Diffusion Model

要約

現在のメイクアップ転送方法は、単純なメイクアップスタイルに限定されており、実際のシナリオで適用するのが難しくなっています。
このペーパーでは、幅広い拡散ベースのメイクアップ移転方法である安定したメイクアップを、ユーザーが提供する顔に幅広い現実世界のメイクを堅牢に転送できることを紹介します。
Stable-Makeupは、事前に訓練された拡散モデルに基づいており、メイクアップの詳細をエンコードするために、詳細提示(D-P)メイクアップエンコーダを使用します。
また、コンテンツと構造制御モジュールを使用して、ソース画像のコンテンツと構造情報を保存します。
U-Netに新しく追加されたメイクアップクロスアテンションレイヤーの助けを借りて、詳細なメイクをソース画像の対応する位置に正確に転送できます。
コンテンツ構造のデカップリングトレーニングの後、安定したメイクはコンテンツとソース画像の顔の構造を維持できます。
さらに、私たちの方法は強い堅牢性と一般化可能性を実証しており、クロスドメインメイクアップ転送、メイクアップされたテキストからイメージの生成などのさまざまなタスクに適用可能になりました。
広範な実験により、私たちのアプローチは、既存のメイクアップ転送方法の間で最先端(SOTA)の結果をもたらし、さまざまな関連分野で幅広い潜在的なアプリケーションで非常に有望な結果を示していることが実証されています。
リリースされたコード:https://github.com/xiaojiu-z/stable-makeup

要約(オリジナル)

Current makeup transfer methods are limited to simple makeup styles, making them difficult to apply in real-world scenarios. In this paper, we introduce Stable-Makeup, a novel diffusion-based makeup transfer method capable of robustly transferring a wide range of real-world makeup, onto user-provided faces. Stable-Makeup is based on a pre-trained diffusion model and utilizes a Detail-Preserving (D-P) makeup encoder to encode makeup details. It also employs content and structural control modules to preserve the content and structural information of the source image. With the aid of our newly added makeup cross-attention layers in U-Net, we can accurately transfer the detailed makeup to the corresponding position in the source image. After content-structure decoupling training, Stable-Makeup can maintain content and the facial structure of the source image. Moreover, our method has demonstrated strong robustness and generalizability, making it applicable to varioustasks such as cross-domain makeup transfer, makeup-guided text-to-image generation and so on. Extensive experiments have demonstrated that our approach delivers state-of-the-art (SOTA) results among existing makeup transfer methods and exhibits a highly promising with broad potential applications in various related fields. Code released: https://github.com/Xiaojiu-z/Stable-Makeup

arxiv情報

著者 Yuxuan Zhang,Yirui Yuan,Yiren Song,Jiaming Liu
発行日 2025-04-01 08:37:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Stable-Makeup: When Real-World Makeup Transfer Meets Diffusion Model はコメントを受け付けていません

MambaPEFT: Exploring Parameter-Efficient Fine-Tuning for Mamba

要約

トランスベースのモデルのエコシステムは、広範なデータを備えた大規模なモデルを構築することにより確立されています。
パラメーター効率の高い微調整(PEFT)は、効果的なパフォーマンスを達成しながら、これらのモデルをダウンストリームタスクに展開するための重要な技術です。
最近、State Space Model(SSM)ベースのモデルであるMambaは、変圧器に代わる潜在的な代替品として注目を集めています。
多くの大規模なMambaベースのモデルが提案されていますが、事前に訓練されたMambaベースのモデルをダウンストリームタスクに効率的に適応させることは未踏のままです。
この論文では、MambaのPEFTメソッドの探索的分析を実施します。
Mambaに適用した場合、変圧器の既存のPEFTメソッドの有効性を調査します。
また、これらの方法を変更して、Mambaアーキテクチャとより適切に調整します。
さらに、Mambaの特徴的な構造を活用する新しいMamba固有のPEFTメソッドを提案します。
私たちの実験は、PEFTがトランスよりもMAMBAに対してより効果的に機能することを示しています。
最後に、複数のPEFTメソッドを効果的に組み合わせて、以前の作業よりも優れたフレームワークを提供する方法を示します。
再現性を確保するために、公開後にコードをリリースします。

要約(オリジナル)

An ecosystem of Transformer-based models has been established by building large models with extensive data. Parameter-efficient fine-tuning (PEFT) is a crucial technology for deploying these models to downstream tasks with minimal cost while achieving effective performance. Recently, Mamba, a State Space Model (SSM)-based model, has attracted attention as a potential alternative to Transformers. While many large-scale Mamba-based models have been proposed, efficiently adapting pre-trained Mamba-based models to downstream tasks remains unexplored. In this paper, we conduct an exploratory analysis of PEFT methods for Mamba. We investigate the effectiveness of existing PEFT methods for Transformers when applied to Mamba. We also modify these methods to better align with the Mamba architecture. Additionally, we propose new Mamba-specific PEFT methods that leverage the distinctive structure of Mamba. Our experiments indicate that PEFT performs more effectively for Mamba than Transformers. Lastly, we demonstrate how to effectively combine multiple PEFT methods and provide a framework that outperforms previous works. To ensure reproducibility, we will release the code after publication.

arxiv情報

著者 Masakazu Yoshimura,Teruaki Hayashi,Yota Maeda
発行日 2025-04-01 08:41:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | MambaPEFT: Exploring Parameter-Efficient Fine-Tuning for Mamba はコメントを受け付けていません

OncoReg: Medical Image Registration for Oncological Challenges

要約

現代の癌研究では、患者のプライバシーに関連する課題により、生成された膨大な量の医療データがしばしば十分に活用されていません。
Oncoreg Challengeは、研究者がより一般化可能なAIモデルの開発を促進しながら患者のプライバシーを保証する2フェーズフレームワークを通じて画像登録方法を開発および検証できるようにすることにより、この問題に対処します。
フェーズ1には、公開されているデータセットを使用して作業し、フェーズ2では、安全な病院ネットワーク内のプライベートデータセットでのトレーニングモデルに焦点を当てています。
Oncoregは、介入コーンビームコンピューター断層撮影(CBCT)の標準計画ファンビームCT(FBCT)画像の登録を放射線療法に組み込むことにより、Learn2reg Challengeによって確立された基盤の上に構築されます。
正確な画像登録は、特に腫瘍を効果的に標的としながら健康な組織への放射線被曝を最小限に抑えるために正確なアライメントが必要な画像誘導放射線療法の動的な治療調整のために、腫瘍学において重要です。
この作業は、Oncoreg Challengeの背後にある方法論とデータの詳細を説明し、競争エントリと結果の包括的な分析を提供します。
調査結果は、特徴抽出がこの登録タスクで極めて重要な役割を果たすことを明らかにしています。
この課題から生まれた新しい方法はその汎用性を実証しましたが、確立されたアプローチは引き続き新しいテクニックと同等に機能し続けています。
深い学習と古典的なアプローチの両方が、画像登録において依然として重要な役割を果たしており、特に特徴抽出における方法の組み合わせが最も効果的であることが証明されています。

要約(オリジナル)

In modern cancer research, the vast volume of medical data generated is often underutilised due to challenges related to patient privacy. The OncoReg Challenge addresses this issue by enabling researchers to develop and validate image registration methods through a two-phase framework that ensures patient privacy while fostering the development of more generalisable AI models. Phase one involves working with a publicly available dataset, while phase two focuses on training models on a private dataset within secure hospital networks. OncoReg builds upon the foundation established by the Learn2Reg Challenge by incorporating the registration of interventional cone-beam computed tomography (CBCT) with standard planning fan-beam CT (FBCT) images in radiotherapy. Accurate image registration is crucial in oncology, particularly for dynamic treatment adjustments in image-guided radiotherapy, where precise alignment is necessary to minimise radiation exposure to healthy tissues while effectively targeting tumours. This work details the methodology and data behind the OncoReg Challenge and provides a comprehensive analysis of the competition entries and results. Findings reveal that feature extraction plays a pivotal role in this registration task. A new method emerging from this challenge demonstrated its versatility, while established approaches continue to perform comparably to newer techniques. Both deep learning and classical approaches still play significant roles in image registration, with the combination of methods – particularly in feature extraction – proving most effective.

arxiv情報

著者 Wiebke Heyer,Yannic Elser,Lennart Berkel,Xinrui Song,Xuanang Xu,Pingkun Yan,Xi Jia,Jinming Duan,Zi Li,Tony C. W. Mok,BoWen LI,Christian Staackmann,Christoph Großbröhmer,Lasse Hansen,Alessa Hering,Malte M. Sieren,Mattias P. Heinrich
発行日 2025-04-01 08:44:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | OncoReg: Medical Image Registration for Oncological Challenges はコメントを受け付けていません