From Play to Replay: Composed Video Retrieval for Temporally Fine-Grained Videos

要約

Composed Video Retrieval(COVR)は、クエリビデオと、意図した変更を説明する修正テキストを指定したターゲットビデオを取得します。
既存のCOVRベンチマークは、外観のシフトまたは粗いイベントの変更を強調するため、微妙でペースの速い時間的違いをキャプチャする能力をテストしません。
一時的に細いCOVR専用の最初の大規模なベンチマークであるTF-COVRを紹介します。
TF-COVRは体操とダイビングに焦点を当てており、FineGymとFinedivingから描かれた180kのトリプレットを提供しています。
時間的側面に焦点を当てた以前のCOVRベンチマークは、各クエリを同じビデオから取得した単一のターゲットセグメントにリンクし、実用的な有用性を制限します。
TF-COVRでは、代わりに、異なるビデオから描かれたクリップ間のラベルの違いをLLMにプロンプ​​トすることにより、各<クエリ、変更>ペアを作成します。
したがって、すべてのペアは、スポーツハイライト生成などの実際のタスクを反映して、複数の有効なターゲットビデオ(平均3.9)に関連付けられています。
これらの時間的ダイナミクスをモデル化するために、簡潔な2段階のトレーニングフレームワークであるTF-COVR-Baseを提案します。(i)一時的に識別的な埋め込みを取得するためのきめ細かいアクション分類に関するビデオエンコーダーを事前訓練します。
(ii)コンポーティングされたクエリを、対照的な学習を使用して候補ビデオに合わせます。
ゼロショットと微調整体制の両方で、一時的に細粒化された構成検索で画像、ビデオ、および一般的なマルチモーダル埋め込み(GME)モデルの最初の包括的な研究を実施します。
TF-COVRでは、TF-COVR-Baseはゼロショットマップ@50@50(LanguageBind)から7.51に改善し、微調整後、最先端を19.83から25.82に引き上げます。

要約(オリジナル)

Composed Video Retrieval (CoVR) retrieves a target video given a query video and a modification text describing the intended change. Existing CoVR benchmarks emphasize appearance shifts or coarse event changes and therefore do not test the ability to capture subtle, fast-paced temporal differences. We introduce TF-CoVR, the first large-scale benchmark dedicated to temporally fine-grained CoVR. TF-CoVR focuses on gymnastics and diving and provides 180K triplets drawn from FineGym and FineDiving. Previous CoVR benchmarks focusing on temporal aspect, link each query to a single target segment taken from the same video, limiting practical usefulness. In TF-CoVR, we instead construct each pair by prompting an LLM with the label differences between clips drawn from different videos; every pair is thus associated with multiple valid target videos (3.9 on average), reflecting real-world tasks such as sports-highlight generation. To model these temporal dynamics we propose TF-CoVR-Base, a concise two-stage training framework: (i) pre-train a video encoder on fine-grained action classification to obtain temporally discriminative embeddings; (ii) align the composed query with candidate videos using contrastive learning. We conduct the first comprehensive study of image, video, and general multimodal embedding (GME) models on temporally fine-grained composed retrieval in both zero-shot and fine-tuning regimes. On TF-CoVR, TF-CoVR-Base improves zero-shot mAP@50 from 5.92 (LanguageBind) to 7.51, and after fine-tuning raises the state-of-the-art from 19.83 to 25.82.

arxiv情報

著者 Animesh Gupta,Jay Parmar,Ishan Rajendrakumar Dave,Mubarak Shah
発行日 2025-06-05 17:31:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | From Play to Replay: Composed Video Retrieval for Temporally Fine-Grained Videos はコメントを受け付けていません

Unifying Appearance Codes and Bilateral Grids for Driving Scene Gaussian Splatting

要約

NERFやGaussian Splatting(GS)を含むニューラルレンダリング技術は、測光の一貫性に依存して高品質の再構築を生成します。
ただし、実際のシナリオでは、獲得した画像の完全な測光の一貫性を保証することは困難です。
この問題に対処するために外観コードは広く使用されていますが、単一のコードが画像全体に適用されるため、モデリング機能は限られています。
最近、両側グリッドがピクセルごとの色マッピングを実行するために導入されましたが、効果的に最適化して制約することは困難です。
この論文では、外観コードと両側グリッドを統一する新しいマルチスケールの両側グリッドを提案します。
このアプローチは、動的で分離された自律運転シーンの再構築における幾何学的精度を大幅に改善し、外観コードと両側グリッドの両方を上回ることを実証します。
これは、障害物の回避と制御に正確なジオメトリが重要である自律運転にとって重要です。
私たちの方法は、Waymo、Nuscenes、Argoverse、およびPandasetの4つのデータセットで強力な結果を示しています。
さらに、ジオメトリの改善は、測光の矛盾によって引き起こされるフローターを効果的に削減するマルチスケールの両側グリッドによって駆動されることを実証します。

要約(オリジナル)

Neural rendering techniques, including NeRF and Gaussian Splatting (GS), rely on photometric consistency to produce high-quality reconstructions. However, in real-world scenarios, it is challenging to guarantee perfect photometric consistency in acquired images. Appearance codes have been widely used to address this issue, but their modeling capability is limited, as a single code is applied to the entire image. Recently, the bilateral grid was introduced to perform pixel-wise color mapping, but it is difficult to optimize and constrain effectively. In this paper, we propose a novel multi-scale bilateral grid that unifies appearance codes and bilateral grids. We demonstrate that this approach significantly improves geometric accuracy in dynamic, decoupled autonomous driving scene reconstruction, outperforming both appearance codes and bilateral grids. This is crucial for autonomous driving, where accurate geometry is important for obstacle avoidance and control. Our method shows strong results across four datasets: Waymo, NuScenes, Argoverse, and PandaSet. We further demonstrate that the improvement in geometry is driven by the multi-scale bilateral grid, which effectively reduces floaters caused by photometric inconsistency.

arxiv情報

著者 Nan Wang,Yuantao Chen,Lixing Xiao,Weiqing Xiao,Bohan Li,Zhaoxi Chen,Chongjie Ye,Shaocong Xu,Saining Zhang,Ziyang Yan,Pierre Merriaux,Lei Lei,Tianfan Xue,Hao Zhao
発行日 2025-06-05 17:33:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Unifying Appearance Codes and Bilateral Grids for Driving Scene Gaussian Splatting はコメントを受け付けていません

Rectified Point Flow: Generic Point Cloud Pose Estimation

要約

ペアワイズポイントクラウド登録とマルチパート形状アセンブリを単一の条件付き生成問題として定式化する統合されたパラメーター化である修正点フローを導入します。
ポジションのない点雲を考えると、私たちの方法は、騒々しいポイントをターゲット位置に輸送する連続点での速度フィールドを学習します。
アドホック対称処理で部分的にポーズを回帰する以前の作業とは対照的に、私たちの方法は、対称ラベルなしでアセンブリの対称性を本質的に学習します。
重複ポイントに焦点を当てた自己監視エンコーダーとともに、この方法は、ペアワイズ登録とシェイプアセンブリにまたがる6つのベンチマークで新しい最先端のパフォーマンスを実現します。
特に、統一された定式化により、多様なデータセットで効果的な共同トレーニングが可能になり、共有された幾何学的事前化の学習が促進され、その結果、精度が向上します。
プロジェクトページ:https://rectifiedpointflow.github.io/。

要約(オリジナル)

We introduce Rectified Point Flow, a unified parameterization that formulates pairwise point cloud registration and multi-part shape assembly as a single conditional generative problem. Given unposed point clouds, our method learns a continuous point-wise velocity field that transports noisy points toward their target positions, from which part poses are recovered. In contrast to prior work that regresses part-wise poses with ad-hoc symmetry handling, our method intrinsically learns assembly symmetries without symmetry labels. Together with a self-supervised encoder focused on overlapping points, our method achieves a new state-of-the-art performance on six benchmarks spanning pairwise registration and shape assembly. Notably, our unified formulation enables effective joint training on diverse datasets, facilitating the learning of shared geometric priors and consequently boosting accuracy. Project page: https://rectified-pointflow.github.io/.

arxiv情報

著者 Tao Sun,Liyuan Zhu,Shengyu Huang,Shuran Song,Iro Armeni
発行日 2025-06-05 17:36:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Rectified Point Flow: Generic Point Cloud Pose Estimation はコメントを受け付けていません

Video World Models with Long-term Spatial Memory

要約

新しい世界モデルは、カメラの動きやテキストプロンプトなどのアクションに応じて、ビデオフレームを自動的に生成します。
時間のコンテキストの窓のサイズが限られているため、これらのモデルは、再訪中にシーンの一貫性を維持するのに苦労し、以前に生成された環境の忘却につながります。
人間の記憶のメカニズムに触発されて、幾何学的な長期空間記憶を通してビデオ世界モデルの長期的な一貫性を高めるための新しいフレームワークを紹介します。
私たちのフレームワークには、長期的な空間メモリから情報を保存および取得するメカニズムが含まれており、カスタムデータセットをキュレートして、明示的に保存された3Dメモリメカニズムで世界モデルをトレーニングおよび評価します。
私たちの評価は、関連するベースラインと比較して品質、一貫性、およびコンテキストの長さが改善され、長期的な一貫した世界生成への道を開いていることを示しています。

要約(オリジナル)

Emerging world models autoregressively generate video frames in response to actions, such as camera movements and text prompts, among other control signals. Due to limited temporal context window sizes, these models often struggle to maintain scene consistency during revisits, leading to severe forgetting of previously generated environments. Inspired by the mechanisms of human memory, we introduce a novel framework to enhancing long-term consistency of video world models through a geometry-grounded long-term spatial memory. Our framework includes mechanisms to store and retrieve information from the long-term spatial memory and we curate custom datasets to train and evaluate world models with explicitly stored 3D memory mechanisms. Our evaluations show improved quality, consistency, and context length compared to relevant baselines, paving the way towards long-term consistent world generation.

arxiv情報

著者 Tong Wu,Shuai Yang,Ryan Po,Yinghao Xu,Ziwei Liu,Dahua Lin,Gordon Wetzstein
発行日 2025-06-05 17:42:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Video World Models with Long-term Spatial Memory はコメントを受け付けていません

RaySt3R: Predicting Novel Depth Maps for Zero-Shot Object Completion

要約

3D Shape Compleyは、ロボット工学、デジタルツイン再建、および拡張現実(XR)に幅広いアプリケーションを備えています。
3Dオブジェクトとシーンの完了における最近の進歩は印象的な結果を達成していますが、既存の方法は3Dの一貫性を欠いており、計算的に高価であり、シャープなオブジェクトの境界を獲得するのに苦労しています。
私たちの研究(Rayst3R)は、3D形状の完成を新しいビュー合成問題として再補充することにより、これらの制限に対処します。
具体的には、単一のRGB-D画像と新しい視点(クエリレイのコレクションとしてエンコードされた)を考えると、フィードフォワードトランスを訓練して、これらのクエリレイの深さマップ、オブジェクトマスク、ピクセルあたりの信頼スコアを予測します。
Rayst3Rは、これらの予測を複数のクエリビューで融合して、完全な3D形状を再構築します。
合成および実世界のデータセットでRayST3Rを評価し、最先端のパフォーマンスを実現し、3D面取り距離ですべてのデータセットのベースラインを最大44%上回ることを観察します。
プロジェクトページ:https://rayst3r.github.io

要約(オリジナル)

3D shape completion has broad applications in robotics, digital twin reconstruction, and extended reality (XR). Although recent advances in 3D object and scene completion have achieved impressive results, existing methods lack 3D consistency, are computationally expensive, and struggle to capture sharp object boundaries. Our work (RaySt3R) addresses these limitations by recasting 3D shape completion as a novel view synthesis problem. Specifically, given a single RGB-D image and a novel viewpoint (encoded as a collection of query rays), we train a feedforward transformer to predict depth maps, object masks, and per-pixel confidence scores for those query rays. RaySt3R fuses these predictions across multiple query views to reconstruct complete 3D shapes. We evaluate RaySt3R on synthetic and real-world datasets, and observe it achieves state-of-the-art performance, outperforming the baselines on all datasets by up to 44% in 3D chamfer distance. Project page: https://rayst3r.github.io

arxiv情報

著者 Bardienus P. Duisterhof,Jan Oberst,Bowen Wen,Stan Birchfield,Deva Ramanan,Jeffrey Ichnowski
発行日 2025-06-05 17:43:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RaySt3R: Predicting Novel Depth Maps for Zero-Shot Object Completion はコメントを受け付けていません

Stable Vision Concept Transformers for Medical Diagnosis

要約

透明性は医療分野で最も重要な懸念であり、研究者が説明可能なAI(XAI)の領域を掘り下げるように促します。
これらのXAIメソッドの中で、コンセプトボトルネックモデル(CBMS)は、最近多くの注目を集めている概念機能を抽出するための概念的なレイヤーを生成することにより、モデルの潜在的な空間を人間的に理解しやすい高レベルの概念に制限することを目指しています。
ただし、既存の方法は、概念機能のみに依存してモデルの予測を決定します。モデルの予測は、医療画像内の本質的な特徴の埋め込みを見落としています。
元のモデルと概念ベースのモデルの間のこのユーティリティギャップに対処するために、Vision Concept Transformer(VCT)を提案します。
さらに、その利点にもかかわらず、CBMはモデルのパフォーマンスに悪影響を与えることがわかっており、入力摂動に直面した場合に安定した説明を提供できないため、医療分野での適用が制限されています。
この忠実さの問題に対処するために、このペーパーでは、VCTに基づいた安定したビジョンコンセプトトランス(SVCT)をさらに提案します。VCTは、視覚変圧器(VIT)をバックボーンとして活用し、概念レイヤーを組み込んでいます。
SVCTは、概念機能を採用して、画像機能を融合させることにより、意思決定機能を強化し、非拡散スムージングの統合を通じてモデルの忠実さを保証します。
4つの医療データセットでの包括的な実験は、VCTとSVCTがベースラインと比較して解釈可能でありながら精度を維持していることを示しています。
さらに、摂動にさらされた場合でも、SVCTモデルは一貫して忠実な説明を提供し、医療分野のニーズを満たしています。

要約(オリジナル)

Transparency is a paramount concern in the medical field, prompting researchers to delve into the realm of explainable AI (XAI). Among these XAI methods, Concept Bottleneck Models (CBMs) aim to restrict the model’s latent space to human-understandable high-level concepts by generating a conceptual layer for extracting conceptual features, which has drawn much attention recently. However, existing methods rely solely on concept features to determine the model’s predictions, which overlook the intrinsic feature embeddings within medical images. To address this utility gap between the original models and concept-based models, we propose Vision Concept Transformer (VCT). Furthermore, despite their benefits, CBMs have been found to negatively impact model performance and fail to provide stable explanations when faced with input perturbations, which limits their application in the medical field. To address this faithfulness issue, this paper further proposes the Stable Vision Concept Transformer (SVCT) based on VCT, which leverages the vision transformer (ViT) as its backbone and incorporates a conceptual layer. SVCT employs conceptual features to enhance decision-making capabilities by fusing them with image features and ensures model faithfulness through the integration of Denoised Diffusion Smoothing. Comprehensive experiments on four medical datasets demonstrate that our VCT and SVCT maintain accuracy while remaining interpretable compared to baselines. Furthermore, even when subjected to perturbations, our SVCT model consistently provides faithful explanations, thus meeting the needs of the medical field.

arxiv情報

著者 Lijie Hu,Songning Lai,Yuan Hua,Shu Yang,Jingfeng Zhang,Di Wang
発行日 2025-06-05 17:43:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Stable Vision Concept Transformers for Medical Diagnosis はコメントを受け付けていません

EOC-Bench: Can MLLMs Identify, Recall, and Forecast Objects in an Egocentric World?

要約

マルチモーダル大手言語モデル(MLLMS)の出現により、エゴセントリックビジョンアプリケーションの突破口が駆動されました。
これらのアプリケーションは、ユーザーが動的で乱雑な環境でツールと対話するため、オブジェクトの持続的でコンテキストを意識した理解を必要とします。
ただし、既存の具体化されたベンチマークは主に静的シーンの探索に焦点を当て、ユーザーの相互作用から生じる動的な変化の評価を無視しながら、オブジェクトの外観と空間的属性を強調します。
このギャップに対処するために、動的なエゴセントリックシナリオでオブジェクト中心の具体化された認知を体系的に評価するように設計された革新的なベンチマークであるEOCベンチを紹介します。
特に、EOCベンチには、過去、現在、および未来の3つの時間的カテゴリに分類された3,277の細心の注釈付きQAペアを備えており、11の微調整された評価寸法と3つの視覚オブジェクト参照タイプをカバーしています。
徹底的な評価を確保するために、4種類の質問を備えた混合フォーマットの人間のループ注釈フレームワークを開発し、オープンエンドの時間評価のための新しいマルチスケールの時間精度メトリックを設計します。
EOCベンチに基づいて、さまざまな独自、オープンソース、およびオブジェクトレベルのMLLMの包括的な評価を実施します。
EOCベンチは、MLLMの具体化されたオブジェクト認知機能を進めるための重要なツールとして機能し、具体化されたシステムの信頼できるコアモデルを開発するための堅牢な基盤を確立します。

要約(オリジナル)

The emergence of multimodal large language models (MLLMs) has driven breakthroughs in egocentric vision applications. These applications necessitate persistent, context-aware understanding of objects, as users interact with tools in dynamic and cluttered environments. However, existing embodied benchmarks primarily focus on static scene exploration, emphasizing object’s appearance and spatial attributes while neglecting the assessment of dynamic changes arising from users’ interactions. To address this gap, we introduce EOC-Bench, an innovative benchmark designed to systematically evaluate object-centric embodied cognition in dynamic egocentric scenarios. Specially, EOC-Bench features 3,277 meticulously annotated QA pairs categorized into three temporal categories: Past, Present, and Future, covering 11 fine-grained evaluation dimensions and 3 visual object referencing types. To ensure thorough assessment, we develop a mixed-format human-in-the-loop annotation framework with four types of questions and design a novel multi-scale temporal accuracy metric for open-ended temporal evaluation. Based on EOC-Bench, we conduct comprehensive evaluations of various proprietary, open-source, and object-level MLLMs. EOC-Bench serves as a crucial tool for advancing the embodied object cognitive capabilities of MLLMs, establishing a robust foundation for developing reliable core models for embodied systems.

arxiv情報

著者 Yuqian Yuan,Ronghao Dang,Long Li,Wentong Li,Dian Jiao,Xin Li,Deli Zhao,Fan Wang,Wenqiao Zhang,Jun Xiao,Yueting Zhuang
発行日 2025-06-05 17:44:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | EOC-Bench: Can MLLMs Identify, Recall, and Forecast Objects in an Egocentric World? はコメントを受け付けていません

AliTok: Towards Sequence Modeling Alignment between Tokenizer and Autoregressive Model

要約

オートレーリングイメージの生成は、以前のトークンに基づいて次のトークンを予測することを目指しています。
ただし、既存の画像トークンザーは、圧縮プロセス中に双方向の依存関係でトークンをエンコードします。これにより、自己回帰モデルによる効果的なモデリングが妨げられます。
この論文では、因果デコーダーを使用してエンコードされたトークン間の単方向依存性を確立するために因果デコーダーを使用して、トークン剤と自己回復モデルの間のトークンモデリングアプローチを整列させる新しい整列トークン剤(Alitok)を提案します。
さらに、プレフィックストークンを組み込み、2段階のトークナイザートレーニングを使用して再構成の一貫性を高めることにより、アリトクは世代に優しい間、優れた再構成パフォーマンスを達成します。
ImagENet-256ベンチマークでは、標準のデコーダーのみの自動脱着モデルを177mパラメーターのみの発電機として使用して、AlitokはGFIDスコアが1.50、IS 305.9のGFIDスコアを達成します。
パラメーターカウントが662mに増加すると、Alitokは1.35のGFIDスコアを達成し、10倍のサンプリング速度で最先端の拡散法を上回ります。
コードと重みはhttps://github.com/ali-vilab/alitokで入手できます。

要約(オリジナル)

Autoregressive image generation aims to predict the next token based on previous ones. However, existing image tokenizers encode tokens with bidirectional dependencies during the compression process, which hinders the effective modeling by autoregressive models. In this paper, we propose a novel Aligned Tokenizer (AliTok), which utilizes a causal decoder to establish unidirectional dependencies among encoded tokens, thereby aligning the token modeling approach between the tokenizer and autoregressive model. Furthermore, by incorporating prefix tokens and employing two-stage tokenizer training to enhance reconstruction consistency, AliTok achieves great reconstruction performance while being generation-friendly. On ImageNet-256 benchmark, using a standard decoder-only autoregressive model as the generator with only 177M parameters, AliTok achieves a gFID score of 1.50 and an IS of 305.9. When the parameter count is increased to 662M, AliTok achieves a gFID score of 1.35, surpassing the state-of-the-art diffusion method with 10x faster sampling speed. The code and weights are available at https://github.com/ali-vilab/alitok.

arxiv情報

著者 Pingyu Wu,Kai Zhu,Yu Liu,Longxiang Tang,Jian Yang,Yansong Peng,Wei Zhai,Yang Cao,Zheng-Jun Zha
発行日 2025-06-05 17:45:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | AliTok: Towards Sequence Modeling Alignment between Tokenizer and Autoregressive Model はコメントを受け付けていません

DM-SegNet: Dual-Mamba Architecture for 3D Medical Image Segmentation with Global Context Modeling

要約

正確な3D医療画像セグメンテーションには、グローバルなコンテキストモデリングと空間トポロジー保存を調整できるアーキテクチャが必要です。
MAMBAのような状態空間モデル(SSM)はシーケンスモデリングの可能性を示していますが、既存の医療SSMはエンコーダデコーダーの非互換性に苦しんでいます:エンコーダの1Dシーケンスフラット化は空間構造を損ないますが、従来のデコーダーはMambaの状態の伝播を活用できません。
解剖学的な階層デコードと方向状態遷移を統合するデュアルマンバアーキテクチャであるDM-Segnetを提示します。
コアイノベーションには、4方向の3Dスキャンを使用して解剖学的空間コヒーレンスを維持するための4方向の3Dスキャンを使用した四方方向空間MAMBAモジュール、状態モデリング前の空間的に敏感な特徴表現を強化するゲートの空間的畳み込み層、およびvidionedional State Synchrranizationを強化するMamba-driven Decoding Frameworkがスケールを支えます。
2つの臨床的に有意なベンチマークでの広範な評価は、DM-SEGNETの有効性を示しています。腹部臓器のセグメンテーションのためのシナプスデータセットで85.44%の最先端のサイコロ類似性係数(DSC)、脳腫瘍分離のためのBRATS2023データセットで90.22%を達成します。

要約(オリジナル)

Accurate 3D medical image segmentation demands architectures capable of reconciling global context modeling with spatial topology preservation. While State Space Models (SSMs) like Mamba show potential for sequence modeling, existing medical SSMs suffer from encoder-decoder incompatibility: the encoder’s 1D sequence flattening compromises spatial structures, while conventional decoders fail to leverage Mamba’s state propagation. We present DM-SegNet, a Dual-Mamba architecture integrating directional state transitions with anatomy-aware hierarchical decoding. The core innovations include a quadri-directional spatial Mamba module employing four-directional 3D scanning to maintain anatomical spatial coherence, a gated spatial convolution layer that enhances spatially sensitive feature representation prior to state modeling, and a Mamba-driven decoding framework enabling bidirectional state synchronization across scales. Extensive evaluation on two clinically significant benchmarks demonstrates the efficacy of DM-SegNet: achieving state-of-the-art Dice Similarity Coefficient (DSC) of 85.44% on the Synapse dataset for abdominal organ segmentation and 90.22% on the BraTS2023 dataset for brain tumor segmentation.

arxiv情報

著者 Hangyu Ji
発行日 2025-06-05 17:49:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | DM-SegNet: Dual-Mamba Architecture for 3D Medical Image Segmentation with Global Context Modeling はコメントを受け付けていません

SeedVR2: One-Step Video Restoration via Diffusion Adversarial Post-Training

要約

拡散ベースのビデオ修復(VR)の最近の進歩は、視覚品質の大幅な改善を示していますが、推論中に法外な計算コストをもたらします。
いくつかの蒸留ベースのアプローチは、ワンステップの画像修復の可能性を示していますが、特に現実世界の設定で高解像度のビデオを扱う場合、VRへの既存のアプローチを拡大することは依然として挑戦的で未定です。
この作業では、実際のデータに対して敵対的なVRトレーニングを実行するSeedVR2と呼ばれる1段階の拡散ベースのVRモデルを提案します。
挑戦的な高解像度VRを1つのステップ内で処理するために、モデルアーキテクチャとトレーニング手順の両方にいくつかの拡張機能を紹介します。
具体的には、適応型ウィンドウの注意メカニズムが提案されています。ここでは、ウィンドウサイズが出力分解能に適合するように動的に調整され、事前定義されたウィンドウサイズでウィンドウの注意を使用して高解像度VRで観察されるウィンドウの不一致を回避します。
VRに対する敵対的なトレーニング後のトレーニングを安定させ、改善するために、トレーニング効率を大幅に犠牲にすることなく、損失を一致させる提案された機能を含む一連の損失の有効性をさらに検証します。
広範な実験では、SeedVR2が既存のVRアプローチと比較して、単一のステップで同等のパフォーマンスまたはさらに優れたパフォーマンスを達成できることが示されています。

要約(オリジナル)

Recent advances in diffusion-based video restoration (VR) demonstrate significant improvement in visual quality, yet yield a prohibitive computational cost during inference. While several distillation-based approaches have exhibited the potential of one-step image restoration, extending existing approaches to VR remains challenging and underexplored, particularly when dealing with high-resolution video in real-world settings. In this work, we propose a one-step diffusion-based VR model, termed as SeedVR2, which performs adversarial VR training against real data. To handle the challenging high-resolution VR within a single step, we introduce several enhancements to both model architecture and training procedures. Specifically, an adaptive window attention mechanism is proposed, where the window size is dynamically adjusted to fit the output resolutions, avoiding window inconsistency observed under high-resolution VR using window attention with a predefined window size. To stabilize and improve the adversarial post-training towards VR, we further verify the effectiveness of a series of losses, including a proposed feature matching loss without significantly sacrificing training efficiency. Extensive experiments show that SeedVR2 can achieve comparable or even better performance compared with existing VR approaches in a single step.

arxiv情報

著者 Jianyi Wang,Shanchuan Lin,Zhijie Lin,Yuxi Ren,Meng Wei,Zongsheng Yue,Shangchen Zhou,Hao Chen,Yang Zhao,Ceyuan Yang,Xuefeng Xiao,Chen Change Loy,Lu Jiang
発行日 2025-06-05 17:51:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SeedVR2: One-Step Video Restoration via Diffusion Adversarial Post-Training はコメントを受け付けていません