PRE-Mamba: A 4D State Space Model for Ultra-High-Frequent Event Camera Deraining

要約

イベントカメラは、高い時間分解能とダイナミックレンジで優れていますが、雨の状態では密な騒音に悩まされています。
既存のイベントデリケーション方法は、時間的精度、由来の有効性、および計算効率の間のトレードオフに直面しています。
このペーパーでは、生のイベントと雨の時空間的な特性を完全に活用する新しいポイントベースのイベントカメラの派生フレームワークであるPre-Mambaを提案します。
私たちのフレームワークでは、デュアル時間スケールを統合して高い時間的精度を維持する4Dイベントクラウド表現を紹介します。これは、時間的および空間的情報の浅いデカップリングと相互作用を可能にする由来能力を高めるための派生能力を高めるための派生能力を強化し、マルチスケール国立空間モデル(MS3M)を獲得します。
線形計算の複雑さを伴うスケール。
周波数ドメインの正則化によって強化されたプレマンバは、ラベル付き合成および実世界のシーケンスを備えた包括的なデータセットであるEventRain-27Kのわずか0.26mパラメーターで、優れたパフォーマンス(0.95 SR、0.91 NR、および0.4S/Mイベント)を実現します。
さらに、私たちの方法は、さまざまな雨の強度、視点、さらには雪の状態にわたってよく一般的になります。

要約(オリジナル)

Event cameras excel in high temporal resolution and dynamic range but suffer from dense noise in rainy conditions. Existing event deraining methods face trade-offs between temporal precision, deraining effectiveness, and computational efficiency. In this paper, we propose PRE-Mamba, a novel point-based event camera deraining framework that fully exploits the spatiotemporal characteristics of raw event and rain. Our framework introduces a 4D event cloud representation that integrates dual temporal scales to preserve high temporal precision, a Spatio-Temporal Decoupling and Fusion module (STDF) that enhances deraining capability by enabling shallow decoupling and interaction of temporal and spatial information, and a Multi-Scale State Space Model (MS3M) that captures deeper rain dynamics across dual-temporal and multi-spatial scales with linear computational complexity. Enhanced by frequency-domain regularization, PRE-Mamba achieves superior performance (0.95 SR, 0.91 NR, and 0.4s/M events) with only 0.26M parameters on EventRain-27K, a comprehensive dataset with labeled synthetic and real-world sequences. Moreover, our method generalizes well across varying rain intensities, viewpoints, and even snowy conditions.

arxiv情報

著者 Ciyu Ruan,Ruishan Guo,Zihang Gong,Jingao Xu,Wenhan Yang,Xinlei Chen
発行日 2025-05-08 14:52:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PRE-Mamba: A 4D State Space Model for Ultra-High-Frequent Event Camera Deraining はコメントを受け付けていません

Augmented Deep Contexts for Spatially Embedded Video Coding

要約

ほとんどのニューラルビデオコーデック(NVC)は、一時的な参照のみを使用して、時間のみのコンテキストと潜在的な事前に生成されます。
これらの一時的なみのNVCは、限られたコンテキストと潜在的な潜在的な潜在的な潜在整形のために、大きな動きや新しいオブジェクトを処理できません。
制限を緩和するために、空間的に埋め込まれたビデオコーデック(SEVC)を提案します。ここでは、低解像度のビデオが空間参照のために圧縮されます。
第一に、SEVCは空間的参照と時間的参照の両方を活用して、増強された動きベクターとハイブリッド空間的コンテキストを生成します。
第二に、潜在的な事前の不整合の問題に対処し、以前の情報を豊かにするために、複数の時間的潜在表現によって増強された空間誘導潜在的な事前の事前を導入します。
最後に、私たちは共同空間的最適化を設計して、空間参照の品質適応ビット割り当てを学習し、レート層のパフォーマンスをさらに高めます。
実験結果は、SEVCが大規模なモーションまたは新しいオブジェクトの処理における制限を効果的に緩和し、以前の最先端のNVCよりも11.9%のビットレートを減らしながら、追加の低解像度ビットストリームを提供することを示しています。
コードとモデルはhttps://github.com/esakak/sevcで入手できます。

要約(オリジナル)

Most Neural Video Codecs (NVCs) only employ temporal references to generate temporal-only contexts and latent prior. These temporal-only NVCs fail to handle large motions or emerging objects due to limited contexts and misaligned latent prior. To relieve the limitations, we propose a Spatially Embedded Video Codec (SEVC), in which the low-resolution video is compressed for spatial references. Firstly, our SEVC leverages both spatial and temporal references to generate augmented motion vectors and hybrid spatial-temporal contexts. Secondly, to address the misalignment issue in latent prior and enrich the prior information, we introduce a spatial-guided latent prior augmented by multiple temporal latent representations. At last, we design a joint spatial-temporal optimization to learn quality-adaptive bit allocation for spatial references, further boosting rate-distortion performance. Experimental results show that our SEVC effectively alleviates the limitations in handling large motions or emerging objects, and also reduces 11.9% more bitrate than the previous state-of-the-art NVC while providing an additional low-resolution bitstream. Our code and model are available at https://github.com/EsakaK/SEVC.

arxiv情報

著者 Yifan Bian,Chuanbo Tang,Li Li,Dong Liu
発行日 2025-05-08 14:57:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Augmented Deep Contexts for Spatially Embedded Video Coding はコメントを受け付けていません

Mapping User Trust in Vision Language Models: Research Landscape, Challenges, and Prospects

要約

大きな画像テキストおよびビデオテキストデータセットで事前に訓練されたビジョン言語モデル(VLM)の迅速な採用は、これらのシステムを信頼するタイミングをユーザーに保護および通知することを求めています。
この調査では、さまざまな認知科学能力、コラボレーションモード、およびエージェント行動を含む学際的な分類法を通じて、ユーザー-VLM相互作用における信頼ダイナミクスに関する研究をレビューします。
将来のVLMユーザーとのワークショップからの文献の洞察と調査結果は、将来のVLMトラスト研究の予備要件を知らせます。

要約(オリジナル)

The rapid adoption of Vision Language Models (VLMs), pre-trained on large image-text and video-text datasets, calls for protecting and informing users about when to trust these systems. This survey reviews studies on trust dynamics in user-VLM interactions, through a multi-disciplinary taxonomy encompassing different cognitive science capabilities, collaboration modes, and agent behaviours. Literature insights and findings from a workshop with prospective VLM users inform preliminary requirements for future VLM trust studies.

arxiv情報

著者 Agnese Chiatti,Sara Bernardini,Lara Shibelski Godoy Piccolo,Viola Schiaffonati,Matteo Matteucci
発行日 2025-05-08 15:02:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.CY, cs.HC, cs.RO | Mapping User Trust in Vision Language Models: Research Landscape, Challenges, and Prospects はコメントを受け付けていません

Feature-Augmented Deep Networks for Multiscale Building Segmentation in High-Resolution UAV and Satellite Imagery

要約

高解像度のRGB画像からの正確な構築セグメンテーションは、非建設機能、影、不規則な建物の幾何学とのスペクトルの類似性のため、依然として困難です。
この研究では、0.4mから2.7mの範囲の空間解像度を使用したRGB空中および衛星画像を使用したマルチスケールビルディングセグメンテーションの包括的なディープラーニングフレームワークを紹介します。
多様なマルチセンサーデータセットをキュレートし、主成分分析(PCA)、可視差植生指数(VDVI)、形態学的建築インデックス(MBI)、およびRGBチャネルのSOBEL EDGEフィルターを含む二次表現を導き出すことにより、特徴を高める入力を導入します。
これらの機能は、複雑な空間パターンをより効果的に学習するためのRES-U-NETアーキテクチャを導きます。
また、トレーニング時間とリソースの使用量を削減するために、レイヤーの凍結、循環学習率、およびスーパーコンバージェンスを組み込んだトレーニングポリシーを提案します。
Hellow-Out Worldview-3画像で評価されたこのモデルは、96.5%の全体的な精度、0.86のF1スコア、および0.80の組合(IOU)上の交差点を達成し、既存のRGBベースのベンチマークを上回ります。
この研究は、リモートセンシングアプリケーションでの堅牢な建物セグメンテーションのためのマルチ解像度の画像、特徴の増強、および最適化されたトレーニング戦略を組み合わせることの有効性を示しています。

要約(オリジナル)

Accurate building segmentation from high-resolution RGB imagery remains challenging due to spectral similarity with non-building features, shadows, and irregular building geometries. In this study, we present a comprehensive deep learning framework for multiscale building segmentation using RGB aerial and satellite imagery with spatial resolutions ranging from 0.4m to 2.7m. We curate a diverse, multi-sensor dataset and introduce feature-augmented inputs by deriving secondary representations including Principal Component Analysis (PCA), Visible Difference Vegetation Index (VDVI), Morphological Building Index (MBI), and Sobel edge filters from RGB channels. These features guide a Res-U-Net architecture in learning complex spatial patterns more effectively. We also propose training policies incorporating layer freezing, cyclical learning rates, and SuperConvergence to reduce training time and resource usage. Evaluated on a held-out WorldView-3 image, our model achieves an overall accuracy of 96.5%, an F1-score of 0.86, and an Intersection over Union (IoU) of 0.80, outperforming existing RGB-based benchmarks. This study demonstrates the effectiveness of combining multi-resolution imagery, feature augmentation, and optimized training strategies for robust building segmentation in remote sensing applications.

arxiv情報

著者 Chintan B. Maniyar,Minakshi Kumar,Gengchen Mai
発行日 2025-05-08 15:08:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, I.2.10 | Feature-Augmented Deep Networks for Multiscale Building Segmentation in High-Resolution UAV and Satellite Imagery はコメントを受け付けていません

Aesthetics Without Semantics

要約

人間のオブザーバーはイメージを美しいまたはugいものと判断するのは簡単ですが、絡み合った知覚的および認知的(セマンティック)要因の組み合わせに起因する美的決定は、科学的な観点から特に審美的判断の理解を理解します。
さらに、私たちの研究は、現在のデータベースで一般的なバイアスを示しています。これには、ほとんど美しい画像が含まれており、審美的な反応の研究と予測をさらに複雑にしています。
セマンティックコンテンツを最小限に抑え、考案し、次に審美的評価の醜い側で画像を生成する方法を備えた画像のデータベースを作成することにより、これらの制限に対処します。
結果の最小セマンティックコンテンツ(MSC)データベースは、10,426枚の画像の大規模でバランスの取れたコレクションで構成され、それぞれが100人のオブザーバーによって評価されます。
次に、確立された画像メトリックを使用して、画像の特徴と美学の評価との間の観察された関係を変更したり、反転させたりできる美しい画像に偏った画像セットを拡張する方法を示します。
総合すると、私たちの研究は、画像の内容をリンクしようとする経験的美学で機能し、美的判断は、彼らが考慮する美的価値の範囲が制限されているため、拡大、過小評価、または単に興味深い効果を見逃す可能性があることを明らかにしています。

要約(オリジナル)

While it is easy for human observers to judge an image as beautiful or ugly, aesthetic decisions result from a combination of entangled perceptual and cognitive (semantic) factors, making the understanding of aesthetic judgements particularly challenging from a scientific point of view. Furthermore, our research shows a prevailing bias in current databases, which include mostly beautiful images, further complicating the study and prediction of aesthetic responses. We address these limitations by creating a database of images with minimal semantic content and devising, and next exploiting, a method to generate images on the ugly side of aesthetic valuations. The resulting Minimum Semantic Content (MSC) database consists of a large and balanced collection of 10,426 images, each evaluated by 100 observers. We next use established image metrics to demonstrate how augmenting an image set biased towards beautiful images with ugly images can modify, or even invert, an observed relationship between image features and aesthetics valuation. Taken together, our study reveals that works in empirical aesthetics attempting to link image content and aesthetic judgements may magnify, underestimate, or simply miss interesting effects due to a limitation of the range of aesthetic values they consider.

arxiv情報

著者 C. Alejandro Parraga,Olivier Penacchio,Marcos Muňoz Gonzalez,Bogdan Raducanu,Xavier Otazu
発行日 2025-05-08 15:22:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, q-bio.NC, stat.CO | Aesthetics Without Semantics はコメントを受け付けていません

USTEP: Spatio-Temporal Predictive Learning under A Unified View

要約

空間的予測学習は、多様な分野で広範囲のアプリケーションを使用して、自己監視学習において重要な役割を果たします。
一時的なモデリングの以前のアプローチは、再発ベースとリカレントフリーの方法の2つのカテゴリに分類されます。
前者は、細心の注意を払ってフレームを1つずつ処理しますが、短期間の空間的情報冗長性を無視し、非効率性につながります。
後者は、固有の時間的依存関係を見下ろして、順番に純粋にスタックします。
この論文では、統一された視点を提供する、時空間予測学習の領域内で、2つの主要な時間モデリングアプローチを再検討します。
この分析に基づいて、USTEP(統一された時空予測学習)を紹介します。これは、微小時点とマクロ同時期の両方のスケールを統合することにより、再発ベースと再発のない方法を調整する革新的な枠組みです。
広範囲の空間的予測学習に関する広範な実験は、USTEPが既存の時間モデリングアプローチに対して大幅な改善を達成し、それによって幅広い時空間アプリケーションの堅牢なソリューションとして確立されることを示しています。

要約(オリジナル)

Spatio-temporal predictive learning plays a crucial role in self-supervised learning, with wide-ranging applications across a diverse range of fields. Previous approaches for temporal modeling fall into two categories: recurrent-based and recurrent-free methods. The former, while meticulously processing frames one by one, neglect short-term spatio-temporal information redundancies, leading to inefficiencies. The latter naively stack frames sequentially, overlooking the inherent temporal dependencies. In this paper, we re-examine the two dominant temporal modeling approaches within the realm of spatio-temporal predictive learning, offering a unified perspective. Building upon this analysis, we introduce USTEP (Unified Spatio-TEmporal Predictive learning), an innovative framework that reconciles the recurrent-based and recurrent-free methods by integrating both micro-temporal and macro-temporal scales. Extensive experiments on a wide range of spatio-temporal predictive learning demonstrate that USTEP achieves significant improvements over existing temporal modeling approaches, thereby establishing it as a robust solution for a wide range of spatio-temporal applications.

arxiv情報

著者 Cheng Tan,Jue Wang,Zhangyang Gao,Siyuan Li,Stan Z. Li
発行日 2025-05-08 15:26:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | USTEP: Spatio-Temporal Predictive Learning under A Unified View はコメントを受け付けていません

Progressive Inertial Poser: Progressive Real-Time Kinematic Chain Estimation for 3D Full-Body Pose from Three IMU Sensors

要約

全身仮想表現をサポートするモーションキャプチャシステムは、仮想現実にとって重要な重要性です。
ビジョンベースのシステムと比較して、まばらな追跡信号からの全身ポーズ推定は、環境条件や記録範囲によって制限されません。
ただし、以前の作品は、骨盤と下半身に追加のセンサーを着用するという課題に直面するか、外部の視覚センサーに依存して主要なジョイントのグローバルな位置を取得しています。
仮想現実アプリケーションのテクノロジーの実用性を向上させるために、頭と手首に着用した3つの慣性測定ユニット(IMU)センサーから得られた慣性データのみを使用して、フルボディポーズを推定し、それによりハードウェアシステムの複雑さが減少します。
この作業では、ニューラルネットワークの推定と人間のダイナミクスモデルを組み合わせた人間のポーズ推定のためのプログレッシブ慣性Poser(Progip)と呼ばれる方法を提案し、運動系チェーンの階層構造を考慮し、多段階の進行性ネットワーク推定を使用して深さを増やして、全身の動きをリアルタイムで再構築します。
エンコーダーはトランスエンコーダーと双方向LSTM(TE-BILSTM)を組み合わせて慣性シーケンスの時間的依存性を柔軟にキャプチャしますが、マルチ層パーセプロン(MLPS)に基づくデコーダーは高次元の特徴を変換し、皮膚のマルチペーソンの線形(SMPL)モデルパラメーターに正確に投影します。
複数のパブリックデータセットでの定量的および定性的な実験結果は、この方法が同じ入力で最先端の方法を上回り、6つのIMUセンサーを使用した最近の作品に匹敵することを示しています。

要約(オリジナル)

The motion capture system that supports full-body virtual representation is of key significance for virtual reality. Compared to vision-based systems, full-body pose estimation from sparse tracking signals is not limited by environmental conditions or recording range. However, previous works either face the challenge of wearing additional sensors on the pelvis and lower-body or rely on external visual sensors to obtain global positions of key joints. To improve the practicality of the technology for virtual reality applications, we estimate full-body poses using only inertial data obtained from three Inertial Measurement Unit (IMU) sensors worn on the head and wrists, thereby reducing the complexity of the hardware system. In this work, we propose a method called Progressive Inertial Poser (ProgIP) for human pose estimation, which combines neural network estimation with a human dynamics model, considers the hierarchical structure of the kinematic chain, and employs a multi-stage progressive network estimation with increased depth to reconstruct full-body motion in real time. The encoder combines Transformer Encoder and bidirectional LSTM (TE-biLSTM) to flexibly capture the temporal dependencies of the inertial sequence, while the decoder based on multi-layer perceptrons (MLPs) transforms high-dimensional features and accurately projects them onto Skinned Multi-Person Linear (SMPL) model parameters. Quantitative and qualitative experimental results on multiple public datasets show that our method outperforms state-of-the-art methods with the same inputs, and is comparable to recent works using six IMU sensors.

arxiv情報

著者 Zunjie Zhu,Yan Zhao,Yihan Hu,Guoxiang Wang,Hai Qiu,Bolun Zheng,Chenggang Yan,Feng Xu
発行日 2025-05-08 15:28:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Progressive Inertial Poser: Progressive Real-Time Kinematic Chain Estimation for 3D Full-Body Pose from Three IMU Sensors はコメントを受け付けていません

Hearing and Seeing Through CLIP: A Framework for Self-Supervised Sound Source Localization

要約

大規模なビジョン言語モデルは、多様なタスク全体で強力なマルチモーダルアライメントと一般化を示しています。
その中で、Clipは最も成功したアプローチの1つとして際立っています。
この作業では、クリップの適用をサウンドソースのローカリゼーションに拡張し、明示的なテキスト入力なしで自己監視された方法を提案します。
オーディオをクリップのテキストエンコーダーと互換性のあるトークンにマッピングするフレームワークを紹介し、オーディオ駆動型の埋め込みを生成します。
これらの埋め込みは、サウンド領域マスクを生成するために使用されます。このマスクは、対照的なオーディオビジュアル対応目標を介して、視覚的な特徴が抽出され、オーディオ埋め込みと整列されています。
私たちの調査結果は、事前に訓練されたマルチモーダルファンデーションモデルのアラインメント知識により、私たちの方法がオブジェクトのサウンド用のより完全でコンパクトなローカリゼーションを生成することを可能にすることを示しています。
さらに、トレーニング中にオブジェクトを認識しているオーディオビジュアルシーンの理解をモデルに蒸留するLLM誘導拡張機能を提案し、アラインメントを強化します。
5つの多様なタスクにわたる広範な実験は、すべてのバリエーションにおけるこの方法が最先端のアプローチを上回り、ゼロショット設定で強力な一般化を達成することを示しています。

要約(オリジナル)

Large-scale vision-language models demonstrate strong multimodal alignment and generalization across diverse tasks. Among them, CLIP stands out as one of the most successful approaches. In this work, we extend the application of CLIP to sound source localization, proposing a self-supervised method operates without explicit text input. We introduce a framework that maps audios into tokens compatible with CLIP’s text encoder, producing audio-driven embeddings. These embeddings are used to generate sounding region masks, from which visual features are extracted and aligned with the audio embeddings through a contrastive audio-visual correspondence objective. Our findings show that alignment knowledge of pre-trained multimodal foundation model enables our method to generate more complete and compact localization for sounding objects. We further propose an LLM-guided extension that distills object-aware audio-visual scene understanding into the model during training to enhance alignment. Extensive experiments across five diverse tasks demonstrate that our method, in all variants, outperforms state-of-the-art approaches and achieves strong generalization in zero-shot settings.

arxiv情報

著者 Sooyoung Park,Arda Senocak,Joon Son Chung
発行日 2025-05-08 15:32:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS | Hearing and Seeing Through CLIP: A Framework for Self-Supervised Sound Source Localization はコメントを受け付けていません

Free Discontinuity Regression: With an Application to the Economic Effects of Internet Shutdowns

要約

鋭く多次元の変化ポイント – 遺伝子発現プロファイリング、金融共分散の破損、気候変動検出、都市の社会経済マッピングなど、場所と大きさが不明である回帰面での急激なシフト。
それらの有病率にもかかわらず、統計的保証を使用して、ワンショットアプローチで設定された不連続性の位置とサイズを共同で推定する現在のアプローチはありません。
したがって、自由な不連続回帰(FDR)を導入します。これは、(i)回帰面を滑らかにする完全なノンパラメトリック推定器であり、(ii)連続領域に分割し、(iii)ジャンプの正確な位置とサイズを実証します。
Mumford-Shah機能の凸緩和をランダムな空間サンプリングと相関ノイズに拡張することにより、FDRは固定グリッドとI.I.Dを克服します。
古典的な画像セグメンテーションアプローチのノイズ仮定により、そのアプリケーションが任意の次元の実際のデータへのアプリケーションを可能にします。
これにより、多変量ジャンプ表面の最初の識別と均一な一貫性の結果が得られます。軽度のSBV規則性、推定関数、その不連続セット、およびすべてのジャンプサイズが真の母集団に収束します。
HyperParametersは、Steinの公平なリスク推定値を使用してデータから自動的に選択され、最大3次元の大規模なシミュレーションが理論的結果を検証し、有限サンプルのパフォーマンスを実証します。
インドのインターネットシャットダウンにFDRを適用すると、以前の推定値よりも大きい推定シャットダウン境界周辺で経済活動が25〜35%減少することが明らかになりました。
Smoothing、セグメンテーション、および一般的な統計的設定での効果サイズの回復を統合することにより、FDRは自由非紛争のアイデアを、最新の多変量データの正式な保証を備えた実用的なツールに変えます。

要約(オリジナル)

Sharp, multidimensional changepoints-abrupt shifts in a regression surface whose locations and magnitudes are unknown-arise in settings as varied as gene-expression profiling, financial covariance breaks, climate-regime detection, and urban socioeconomic mapping. Despite their prevalence, there are no current approaches that jointly estimate the location and size of the discontinuity set in a one-shot approach with statistical guarantees. We therefore introduce Free Discontinuity Regression (FDR), a fully nonparametric estimator that simultaneously (i) smooths a regression surface, (ii) segments it into contiguous regions, and (iii) provably recovers the precise locations and sizes of its jumps. By extending a convex relaxation of the Mumford-Shah functional to random spatial sampling and correlated noise, FDR overcomes the fixed-grid and i.i.d. noise assumptions of classical image-segmentation approaches, thus enabling its application to real-world data of any dimension. This yields the first identification and uniform consistency results for multivariate jump surfaces: under mild SBV regularity, the estimated function, its discontinuity set, and all jump sizes converge to their true population counterparts. Hyperparameters are selected automatically from the data using Stein’s Unbiased Risk Estimate, and large-scale simulations up to three dimensions validate the theoretical results and demonstrate good finite-sample performance. Applying FDR to an internet shutdown in India reveals a 25-35% reduction in economic activity around the estimated shutdown boundaries-much larger than previous estimates. By unifying smoothing, segmentation, and effect-size recovery in a general statistical setting, FDR turns free-discontinuity ideas into a practical tool with formal guarantees for modern multivariate data.

arxiv情報

著者 Florian Gunsilius,David Van Dijcke
発行日 2025-05-08 15:35:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, econ.EM, math.ST, stat.AP, stat.ME, stat.TH | Free Discontinuity Regression: With an Application to the Economic Effects of Internet Shutdowns はコメントを受け付けていません

Rethinking Video Super-Resolution: Towards Diffusion-Based Methods without Motion Alignment

要約

この作業では、潜在的な空間で動作する無条件のビデオ拡散トランスと組み合わせて、拡散後のサンプリングフレームワークに基づいてメソッドを導入することにより、ビデオスーパー解像度へのアプローチを再考します。
拡散変圧器であるビデオ生成モデルは、時空モデルとして機能します。
現実世界の物理学を学ぶ強力なモデルは、事前知識としてさまざまな種類のモーションパターンを簡単に処理できるため、ピクセルアライメントの光学フローまたはモーションパラメーターの明示的な推定の必要性を排除できると主張します。
さらに、提案されたビデオ拡散トランスモデルの単一のインスタンスは、再トレーニングなしで異なるサンプリング条件に適応できます。
合成および実世界のデータセットの経験的結果は、拡散ベースのアライメントフリーのビデオスーパー解像度の実現可能性を示しています。

要約(オリジナル)

In this work, we rethink the approach to video super-resolution by introducing a method based on the Diffusion Posterior Sampling framework, combined with an unconditional video diffusion transformer operating in latent space. The video generation model, a diffusion transformer, functions as a space-time model. We argue that a powerful model, which learns the physics of the real world, can easily handle various kinds of motion patterns as prior knowledge, thus eliminating the need for explicit estimation of optical flows or motion parameters for pixel alignment. Furthermore, a single instance of the proposed video diffusion transformer model can adapt to different sampling conditions without re-training. Empirical results on synthetic and real-world datasets illustrate the feasibility of diffusion-based, alignment-free video super-resolution.

arxiv情報

著者 Zhihao Zhan,Wang Pang,Xiang Zhu,Yechao Bai
発行日 2025-05-08 15:38:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | Rethinking Video Super-Resolution: Towards Diffusion-Based Methods without Motion Alignment はコメントを受け付けていません