Continuous Locomotive Crowd Behavior Generation

要約

群衆の行動のモデリングと再現は、心理学、ロボット工学、輸送工学、仮想環境などのさまざまなドメインで重要です。
従来の方法では、現実世界の群衆の継続的な性質を複製するのが困難な瞬間的なシーンの合成に焦点を当てています。
この論文では、個人間の異種の行動と相互作用を備えた連続的で現実的な群衆の軌跡を自動的に生成するための新しい方法を紹介します。
最初にクラウドエミッタモデルを設計します。
これを行うために、群衆の生成前に、セグメンテーションマップ、外観マップ、人口密度マップ、母集団の確率を含む単一の入力画像から空間レイアウトを取得します。
その後、エミッタは、拡散モデルを使用してエージェントのタイプ、ペース、開始/終了位置などの独立した動作特性を割り当てることにより、個人をタイムラインに継続的に配置します。
次に、クラウドシミュレーターは長期的な運動を生成します。
多様なアクションをシミュレートするために、マルコフ連鎖に基づいて行動を強化できます。
その結果、私たちの全体的なフレームワークは、提案されたエミッターとシミュレータを交互に行うことにより、シーンに不均一な群衆の行動を導入します。
提案されたフレームワークのすべてのコンポーネントはユーザー制御可能であることに注意してください。
最後に、シーンレベルの人口ダイナミクスと個人レベルの軌道精度の観点から、生成された群衆のリアリズムと品質を評価するためのベンチマークプロトコルを提案します。
私たちのアプローチは、さまざまな地理的環境で多様な群衆の行動パターンを効果的にモデル化し、よく一般化することを実証します。
コードはhttps://github.com/inhwanbae/crowdesで公開されています。

要約(オリジナル)

Modeling and reproducing crowd behaviors are important in various domains including psychology, robotics, transport engineering and virtual environments. Conventional methods have focused on synthesizing momentary scenes, which have difficulty in replicating the continuous nature of real-world crowds. In this paper, we introduce a novel method for automatically generating continuous, realistic crowd trajectories with heterogeneous behaviors and interactions among individuals. We first design a crowd emitter model. To do this, we obtain spatial layouts from single input images, including a segmentation map, appearance map, population density map and population probability, prior to crowd generation. The emitter then continually places individuals on the timeline by assigning independent behavior characteristics such as agents’ type, pace, and start/end positions using diffusion models. Next, our crowd simulator produces their long-term locomotions. To simulate diverse actions, it can augment their behaviors based on a Markov chain. As a result, our overall framework populates the scenes with heterogeneous crowd behaviors by alternating between the proposed emitter and simulator. Note that all the components in the proposed framework are user-controllable. Lastly, we propose a benchmark protocol to evaluate the realism and quality of the generated crowds in terms of the scene-level population dynamics and the individual-level trajectory accuracy. We demonstrate that our approach effectively models diverse crowd behavior patterns and generalizes well across different geographical environments. Code is publicly available at https://github.com/InhwanBae/CrowdES .

arxiv情報

著者 Inhwan Bae,Junoh Lee,Hae-Gon Jeon
発行日 2025-04-21 11:42:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | コメントする

Overcoming False Illusions in Real-World Face Restoration with Multi-Modal Guided Diffusion Model

要約

低品質の入力からの顔の画像修復の品質を向上させるために設計された、新しいマルチモーダルガイドの実世界の顔修復(MGFR)技術を紹介します。
属性テキストプロンプト、高品質の参照画像、およびID情報のブレンドを活用して、MGFRは、生成的顔の修復方法にしばしば関連する誤った顔の属性とアイデンティティの生成を軽減できます。
デュアルコントロールアダプターと2段階のトレーニング戦略を組み込むことにより、この方法は、ターゲット復元タスクにマルチモーダル以前の情報を効果的に利用します。
また、参照フェイストレーニング画像の必要性に対処するために、4800のアイデンティティにわたって21,000を超える高解像度のフェイシャル画像を含む、Reface-HQデータセットも提示します。
私たちのアプローチは、重度の劣化下で顔の詳細を回復する上で優れた視覚品質を達成し、制御された修復プロセスを可能にし、アイデンティティの保存と属性修正の精度を高めます。
トレーニングに否定的な品質サンプルと属性プロンプトを含めると、詳細で知覚的に正確な画像を生成するモデルの能力がさらに洗練されます。

要約(オリジナル)

We introduce a novel Multi-modal Guided Real-World Face Restoration (MGFR) technique designed to improve the quality of facial image restoration from low-quality inputs. Leveraging a blend of attribute text prompts, high-quality reference images, and identity information, MGFR can mitigate the generation of false facial attributes and identities often associated with generative face restoration methods. By incorporating a dual-control adapter and a two-stage training strategy, our method effectively utilizes multi-modal prior information for targeted restoration tasks. We also present the Reface-HQ dataset, comprising over 21,000 high-resolution facial images across 4800 identities, to address the need for reference face training images. Our approach achieves superior visual quality in restoring facial details under severe degradation and allows for controlled restoration processes, enhancing the accuracy of identity preservation and attribute correction. Including negative quality samples and attribute prompts in the training further refines the model’s ability to generate detailed and perceptually accurate images.

arxiv情報

著者 Keda Tao,Jinjin Gu,Yulun Zhang,Xiucheng Wang,Nan Cheng
発行日 2025-04-21 11:47:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Distribution-aware Forgetting Compensation for Exemplar-Free Lifelong Person Re-identification

要約

生涯にわたる人の再識別(LREID)は、新しい情報に適応しながら古い知識を維持する上で重要な課題に苦しんでいます。
既存のソリューションには、この課題に対処するためのリハーサルベースとリハーサルのない方法が含まれます。
リハーサルベースのアプローチは、知識の蒸留に依存しており、蒸留プロセス中に忘却を継続的に蓄積します。
リハーサルフリーの方法は、各ドメインの分布を不十分に学習し、時間の経過とともに忘却につながります。
これらの問題を解決するために、古い模範や知識の蒸留を使用せずに、クロスドメイン共有表現学習とドメイン固有の分布統合を調査する新しい配布忘却補償(DAFC)モデルを提案します。
テキスト機能を利用してプロンプト要素を濃縮し、各インスタンスの微細な表現を学習するためにプロンプ​​トモデルを導くテキスト駆動型の迅速な集約(TPA)を提案します。
これにより、ID情報の差別化が強化され、ドメイン分布認識の基盤が確立されます。
次に、分布ベースの認識と統合(DAI)は、専用の専門家ネットワークによって各ドメイン固有の分布をキャプチャし、それらを高次元空間の共有地域に適応的に統合するように設計されています。
このようにして、DAIは、壊滅的な忘却を軽減しながら、クロスドメインの共有表現学習を統合および強化することができます。
さらに、インスタンスレベルの識別とクロスドメインの一貫性アライメント戦略を含む知識統合メカニズム(KCM)を開発し、現在のドメインからの新しい知識のモデル適応学習を促進し、それぞれ獲得したドメイン固有の分布間の知識統合学習を促進します。
実験結果は、DAFCが2つのトレーニング注文で平均MAP/R@1の少なくとも9.8 \%/6.6 \%および6.4 \%/6.2 \%で最先端の方法を上回ることを示しています。

要約(オリジナル)

Lifelong Person Re-identification (LReID) suffers from a key challenge in preserving old knowledge while adapting to new information. The existing solutions include rehearsal-based and rehearsal-free methods to address this challenge. Rehearsal-based approaches rely on knowledge distillation, continuously accumulating forgetting during the distillation process. Rehearsal-free methods insufficiently learn the distribution of each domain, leading to forgetfulness over time. To solve these issues, we propose a novel Distribution-aware Forgetting Compensation (DAFC) model that explores cross-domain shared representation learning and domain-specific distribution integration without using old exemplars or knowledge distillation. We propose a Text-driven Prompt Aggregation (TPA) that utilizes text features to enrich prompt elements and guide the prompt model to learn fine-grained representations for each instance. This can enhance the differentiation of identity information and establish the foundation for domain distribution awareness. Then, Distribution-based Awareness and Integration (DAI) is designed to capture each domain-specific distribution by a dedicated expert network and adaptively consolidate them into a shared region in high-dimensional space. In this manner, DAI can consolidate and enhance cross-domain shared representation learning while alleviating catastrophic forgetting. Furthermore, we develop a Knowledge Consolidation Mechanism (KCM) that comprises instance-level discrimination and cross-domain consistency alignment strategies to facilitate model adaptive learning of new knowledge from the current domain and promote knowledge consolidation learning between acquired domain-specific distributions, respectively. Experimental results show that our DAFC outperform state-of-the-art methods by at least 9.8\%/6.6\% and 6.4\%/6.2\% of average mAP/R@1 on two training orders.

arxiv情報

著者 Shiben Liu,Huijie Fan,Qiang Wang,Baojie Fan,Yandong Tang,Liangqiong Qu
発行日 2025-04-21 11:53:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | コメントする

Depth Pro: Sharp Monocular Metric Depth in Less Than a Second

要約

ゼロショットメトリック単眼深度推定の基礎モデルを提示します。
私たちのモデルである深度プロは、比類のないシャープネスと高周波の詳細を備えた高解像度の深度マップを合成します。
予測は、カメラからのメタデータの入手可能性に依存することなく、絶対スケールのメトリックです。
モデルは高速で、標準GPUで0.3秒で2.25メガピクセルの深度マップを生成します。
これらの特性は、密な予測のための効率的なマルチスケールビジョン変圧器、実質的および合成データセットを組み合わせて微細境界の精度を実現するトレーニングプロトコル、推定された深さマップの境界精度の専用評価メトリック、および単一の画像からの最先端の焦点長さの推定を含む、多くの技術的貢献によって有効になっています。
広範な実験は、特定の設計の選択肢を分析し、深さプロが複数の次元に沿って以前の作業よりも優れていることを示しています。
https://github.com/apple/ml-depth-proでコードとウェイトをリリースします

要約(オリジナル)

We present a foundation model for zero-shot metric monocular depth estimation. Our model, Depth Pro, synthesizes high-resolution depth maps with unparalleled sharpness and high-frequency details. The predictions are metric, with absolute scale, without relying on the availability of metadata such as camera intrinsics. And the model is fast, producing a 2.25-megapixel depth map in 0.3 seconds on a standard GPU. These characteristics are enabled by a number of technical contributions, including an efficient multi-scale vision transformer for dense prediction, a training protocol that combines real and synthetic datasets to achieve high metric accuracy alongside fine boundary tracing, dedicated evaluation metrics for boundary accuracy in estimated depth maps, and state-of-the-art focal length estimation from a single image. Extensive experiments analyze specific design choices and demonstrate that Depth Pro outperforms prior work along multiple dimensions. We release code and weights at https://github.com/apple/ml-depth-pro

arxiv情報

著者 Aleksei Bochkovskii,Amaël Delaunoy,Hugo Germain,Marcel Santos,Yichao Zhou,Stephan R. Richter,Vladlen Koltun
発行日 2025-04-21 12:09:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | コメントする

ScanEdit: Hierarchically-Guided Functional 3D Scan Editing

要約

3Dキャプチャテクノロジーの速いペースと結果として生じる3Dデータの豊富さにより、さまざまなグラフィックスアプリケーションに効果的な3Dシーン編集が不可欠になります。
この作業では、複雑で実世界の3Dスキャンの機能的編集のための命令主導の方法であるScaneditを提示します。
大規模で相互に依存したオブジェクトのセットをモデル化するには、階層的に誘導されたアプローチを提案します。
オブジェクトインスタンスに分解された3Dスキャンを考えると、最初に階層シーングラフ表現を構築して、効果的で扱いやすい編集を可能にします。
次に、大規模な言語モデル(LLMS)の推論機能を活用し、高レベルの言語命令を階層的に適用できる実用的なコマンドにシーングラフに翻訳します。
スキャンされたScaneditは、LLMベースのガイダンスをexclicticの物理的制約と統合し、オブジェクトの配置が物理学と常識の両方に従う現実的なシーンを生成します。
私たちの広範な実験的評価では、スキャンされたスキャンは最先端を上回り、さまざまな現実世界のシーンと入力命令に優れた結果を示しています。

要約(オリジナル)

With the fast pace of 3D capture technology and resulting abundance of 3D data, effective 3D scene editing becomes essential for a variety of graphics applications. In this work we present ScanEdit, an instruction-driven method for functional editing of complex, real-world 3D scans. To model large and interdependent sets of ob- jectswe propose a hierarchically-guided approach. Given a 3D scan decomposed into its object instances, we first construct a hierarchical scene graph representation to enable effective, tractable editing. We then leverage reason- ing capabilities of Large Language Models (LLMs) and translate high-level language instructions into actionable commands applied hierarchically to the scene graph. Fi- nally, ScanEdit integrates LLM-based guidance with ex- plicit physical constraints and generates realistic scenes where object arrangements obey both physics and common sense. In our extensive experimental evaluation ScanEdit outperforms state of the art and demonstrates excellent re- sults for a variety of real-world scenes and input instruc- tions.

arxiv情報

著者 Mohamed el amine Boudjoghra,Ivan Laptev,Angela Dai
発行日 2025-04-21 12:12:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

VeLU: Variance-enhanced Learning Unit for Deep Neural Networks

要約

活性化機能は、深いニューラルネットワークの基本であり、勾配の流れ、最適化の安定性、および一般化に直接影響を与えます。
Reluはその単純さのために標準のままですが、勾配の消失に苦しみ、適応性が欠けています。
SwishやGeluなどの代替案はスムーズな遷移を導入しますが、入力統計に動的に調整することはできません。
Arctan-Sin変換とWasserstein-2の正則化を統合し、共変量のシフトを効果的に緩和し、最適化を安定化することにより、入力分散に基づいて動的にスケーリングする活性化関数として、分散強化学習ユニットであるVeluを提案します。
VIT_B16、VGG19、RESNET50、DENSENET121、MOBILENETV2、およびEFFICIENTNETB3での広範な実験により、6つの視覚ベンチマークでのRelu、Relu6、Swish、およびGeluに対するVeluの優位性が確認されます。
VeluのコードはGithubで公開されています。

要約(オリジナル)

Activation functions are fundamental in deep neural networks and directly impact gradient flow, optimization stability, and generalization. Although ReLU remains standard because of its simplicity, it suffers from vanishing gradients and lacks adaptability. Alternatives like Swish and GELU introduce smooth transitions, but fail to dynamically adjust to input statistics. We propose VeLU, a Variance-enhanced Learning Unit as an activation function that dynamically scales based on input variance by integrating ArcTan-Sin transformations and Wasserstein-2 regularization, effectively mitigating covariate shifts and stabilizing optimization. Extensive experiments on ViT_B16, VGG19, ResNet50, DenseNet121, MobileNetV2, and EfficientNetB3 confirm VeLU’s superiority over ReLU, ReLU6, Swish, and GELU on six vision benchmarks. The codes of VeLU are publicly available on GitHub.

arxiv情報

著者 Ashkan Shakarami,Yousef Yeganeh,Azade Farshad,Lorenzo Nicolè,Stefano Ghidoni,Nassir Navab
発行日 2025-04-21 12:20:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

Structure-guided Diffusion Transformer for Low-Light Image Enhancement

要約

拡散変圧器(DIT)は近年関心のある焦点となっていますが、低光の画像強化への適用は、探索のための空白の領域のままです。
現在のメソッドは、画像のノイズを必然的に増幅しながら、低光の画像から詳細を回復し、視覚的な品質が低下します。
この論文では、最初に低光の強化タスクにDITを導入し、新しい構造誘導拡散トランスベースの低光画像強化(SDTL)フレームワークを設計します。
ウェーブレット変換を介して特徴を圧縮して、モデルの推論効率を改善し、多方向周波数帯域をキャプチャします。
次に、テクスチャを強化する前に構造を使用する構造強化モジュール(SEM)を提案し、より正確な強化効果を実現するために適応融合戦略を活用します。
さらに、テクスチャが豊富なトークンにもっと注意を払って、ノイズ予測でノイズの多い領域からの干渉を避けるために、構造誘導の注意ブロック(SAB)を提案します。
広範な定性的および定量的実験は、この方法がいくつかの一般的なデータセットでSOTAパフォーマンスを達成し、画質の向上におけるSDTLの有効性と低光強化タスクでのDITの可能性を検証することを示しています。

要約(オリジナル)

While the diffusion transformer (DiT) has become a focal point of interest in recent years, its application in low-light image enhancement remains a blank area for exploration. Current methods recover the details from low-light images while inevitably amplifying the noise in images, resulting in poor visual quality. In this paper, we firstly introduce DiT into the low-light enhancement task and design a novel Structure-guided Diffusion Transformer based Low-light image enhancement (SDTL) framework. We compress the feature through wavelet transform to improve the inference efficiency of the model and capture the multi-directional frequency band. Then we propose a Structure Enhancement Module (SEM) that uses structural prior to enhance the texture and leverages an adaptive fusion strategy to achieve more accurate enhancement effect. In Addition, we propose a Structure-guided Attention Block (SAB) to pay more attention to texture-riched tokens and avoid interference from noisy areas in noise prediction. Extensive qualitative and quantitative experiments demonstrate that our method achieves SOTA performance on several popular datasets, validating the effectiveness of SDTL in improving image quality and the potential of DiT in low-light enhancement tasks.

arxiv情報

著者 Xiangchen Yin,Zhenda Yu,Longtao Jiang,Xin Gao,Xiao Sun,Zhi Liu,Xun Yang
発行日 2025-04-21 12:30:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Direct Learning of Mesh and Appearance via 3D Gaussian Splatting

要約

明示的なジオメトリ情報を含む3Dシーンを正確に再構築することは、魅力的で挑戦的です。
ジオメトリ再構成は、神経放射輝度フィールドや3Dガウススプラッティング(3DG)などの微分可能な外観モデルを組み込むことで利益を得ることができます。
ただし、既存の方法は、間接的なジオメトリ学習と、形状と表面の外観を個別にモデル化するパラダイムによる効率の問題が発生します。
この作業では、明示的なジオメトリ表現、つまりメッシュを含む3DGを組み込んだ学習可能なシーンモデルを提案します。
私たちのモデルは、メッシュと外観をエンドツーエンドの方法で学習し、3Dガウスをメッシュ面に結合し、3DGの微分可能なレンダリングを実行して測光監督を取得します。
このモデルは、3DGとメッシュの両方の学習を監督するための効果的な情報経路を作成します。
実験結果は、学習されたシーンモデルが効率を改善し、品質を向上させるだけでなく、明示的なメッシュを介した操作を可能にすることを示しています。
さらに、私たちのモデルは、メッシュと外観の両方のエンドツーエンドの学習のおかげで、シーンの更新に適応する上でユニークな利点があります。

要約(オリジナル)

Accurately reconstructing a 3D scene including explicit geometry information is both attractive and challenging. Geometry reconstruction can benefit from incorporating differentiable appearance models, such as Neural Radiance Fields and 3D Gaussian Splatting (3DGS). However, existing methods encounter efficiency issues due to indirect geometry learning and the paradigm of separately modeling geometry and surface appearance. In this work, we propose a learnable scene model that incorporates 3DGS with an explicit geometry representation, namely a mesh. Our model learns the mesh and appearance in an end-to-end manner, where we bind 3D Gaussians to the mesh faces and perform differentiable rendering of 3DGS to obtain photometric supervision. The model creates an effective information pathway to supervise the learning of both 3DGS and mesh. Experimental results demonstrate that the learned scene model not only improves efficiency and rendering quality but also enables manipulation via the explicit mesh. In addition, our model has a unique advantage in adapting to scene updates, thanks to the end-to-end learning of both mesh and appearance.

arxiv情報

著者 Ancheng Lin,Yusheng Xiang,Paul Kennedy,Jun Li
発行日 2025-04-21 12:33:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Hierarchical Attention Fusion of Visual and Textual Representations for Cross-Domain Sequential Recommendation

要約

クロスドメインの連続的な推奨事項(CDSR)は、複数のドメインにわたって歴史的な相互作用を活用してユーザーの動作を予測し、シーケンス間および介入のアイテム関係を通じてクロスドメインの好みをモデリングすることに焦点を当てています。
人間の認知プロセスに触発されて、視覚的およびテキスト表現(HAF-VT)の階層的な注意融合を提案します。これは、視覚データとテキストデータを統合して認知モデリングを強化する新しいアプローチです。
フローズンクリップモデルを使用して、画像とテキストの埋め込みを生成し、マルチモーダルデータでアイテム表現を濃縮します。
階層的な注意メカニズムは、単一ドメインとクロスドメインの好みを共同で学習し、人間の情報統合を模倣します。
4つのeコマースデータセットで評価されているHAF-VTは、ドメインのユーザーの関心をキャプチャし、認知原理を計算モデルで埋め、順次意思決定におけるマルチモーダルデータの役割を強調する際に既存の方法を上回ります。

要約(オリジナル)

Cross-Domain Sequential Recommendation (CDSR) predicts user behavior by leveraging historical interactions across multiple domains, focusing on modeling cross-domain preferences through intra- and inter-sequence item relationships. Inspired by human cognitive processes, we propose Hierarchical Attention Fusion of Visual and Textual Representations (HAF-VT), a novel approach integrating visual and textual data to enhance cognitive modeling. Using the frozen CLIP model, we generate image and text embeddings, enriching item representations with multimodal data. A hierarchical attention mechanism jointly learns single-domain and cross-domain preferences, mimicking human information integration. Evaluated on four e-commerce datasets, HAF-VT outperforms existing methods in capturing cross-domain user interests, bridging cognitive principles with computational models and highlighting the role of multimodal data in sequential decision-making.

arxiv情報

著者 Wangyu Wu,Zhenhong Chen,Siqi Song,Xianglin Qiua,Xiaowei Huang,Fei Ma,Jimin Xiao
発行日 2025-04-21 13:18:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

VistaDepth: Frequency Modulation With Bias Reweighting For Enhanced Long-Range Depth Estimation

要約

単眼深度推定(MDE)は、単一のRGB画像からピクセルあたりの深度値を予測することを目的としています。
最近の進歩により、拡散モデルは、条件付き画像生成タスクとしてチャレンジをフレーミングすることにより、効果的なMDEツールとして位置づけられています。
それらの進歩にもかかわらず、これらの方法は、主に深さ値の不均衡な分布と空間領土機能への過度の依存のために、遠い深さを正確に再構築することに苦労します。
これらの制限を克服するために、適応性のある周波数ドメイン特徴の機能強化を適応型重量バランスメカニズムと拡散プロセスに統合する新しいフレームワークであるVistadepthを紹介します。
私たちのアプローチの中心は、潜在周波数変調(LFM)モジュールであり、潜在的な特徴空間のスペクトル応答を動的に改良し、それにより構造の詳細の保存を改善し、ノイズの多いアーティファクトを減らします。
さらに、拡散損失をリアルタイムで調節する適応重み戦略を実装し、遠い深度再構成に対するモデルの感度を高めます。
これらのイノベーションは、距離と詳細の両方で優れた深さの知覚パフォーマンスを集合的にもたらします。
実験的評価では、Vistadepthが拡散ベースのMDE技術の間で最先端のパフォーマンスを達成し、特に遠い地域の正確な再構築に優れていることが確認されています。

要約(オリジナル)

Monocular depth estimation (MDE) aims to predict per-pixel depth values from a single RGB image. Recent advancements have positioned diffusion models as effective MDE tools by framing the challenge as a conditional image generation task. Despite their progress, these methods often struggle with accurately reconstructing distant depths, due largely to the imbalanced distribution of depth values and an over-reliance on spatial-domain features. To overcome these limitations, we introduce VistaDepth, a novel framework that integrates adaptive frequency-domain feature enhancements with an adaptive weight-balancing mechanism into the diffusion process. Central to our approach is the Latent Frequency Modulation (LFM) module, which dynamically refines spectral responses in the latent feature space, thereby improving the preservation of structural details and reducing noisy artifacts. Furthermore, we implement an adaptive weighting strategy that modulates the diffusion loss in real-time, enhancing the model’s sensitivity towards distant depth reconstruction. These innovations collectively result in superior depth perception performance across both distance and detail. Experimental evaluations confirm that VistaDepth achieves state-of-the-art performance among diffusion-based MDE techniques, particularly excelling in the accurate reconstruction of distant regions.

arxiv情報

著者 Mingxia Zhan,Li Zhang,XiaoMeng Chu,Beibei Wang
発行日 2025-04-21 13:30:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする