Distribution-aware Forgetting Compensation for Exemplar-Free Lifelong Person Re-identification

要約

生涯にわたる人の再識別(LREID)は、新しい情報に適応しながら古い知識を維持する上で重要な課題に苦しんでいます。
既存のソリューションには、この課題に対処するためのリハーサルベースとリハーサルのない方法が含まれます。
リハーサルベースのアプローチは、知識の蒸留に依存しており、蒸留プロセス中に忘却を継続的に蓄積します。
リハーサルフリーの方法は、各ドメインの分布を不十分に学習し、時間の経過とともに忘却につながります。
これらの問題を解決するために、古い模範や知識の蒸留を使用せずに、クロスドメイン共有表現学習とドメイン固有の分布統合を調査する新しい配布忘却補償(DAFC)モデルを提案します。
テキスト機能を利用してプロンプト要素を濃縮し、各インスタンスの微細な表現を学習するためにプロンプ​​トモデルを導くテキスト駆動型の迅速な集約(TPA)を提案します。
これにより、ID情報の差別化が強化され、ドメイン分布認識の基盤が確立されます。
次に、分布ベースの認識と統合(DAI)は、専用の専門家ネットワークによって各ドメイン固有の分布をキャプチャし、それらを高次元空間の共有地域に適応的に統合するように設計されています。
このようにして、DAIは、壊滅的な忘却を軽減しながら、クロスドメインの共有表現学習を統合および強化することができます。
さらに、インスタンスレベルの識別とクロスドメインの一貫性アライメント戦略を含む知識統合メカニズム(KCM)を開発し、現在のドメインからの新しい知識のモデル適応学習を促進し、それぞれ獲得したドメイン固有の分布間の知識統合学習を促進します。
実験結果は、DAFCが2つのトレーニング注文で平均MAP/R@1の少なくとも9.8 \%/6.6 \%および6.4 \%/6.2 \%で最先端の方法を上回ることを示しています。

要約(オリジナル)

Lifelong Person Re-identification (LReID) suffers from a key challenge in preserving old knowledge while adapting to new information. The existing solutions include rehearsal-based and rehearsal-free methods to address this challenge. Rehearsal-based approaches rely on knowledge distillation, continuously accumulating forgetting during the distillation process. Rehearsal-free methods insufficiently learn the distribution of each domain, leading to forgetfulness over time. To solve these issues, we propose a novel Distribution-aware Forgetting Compensation (DAFC) model that explores cross-domain shared representation learning and domain-specific distribution integration without using old exemplars or knowledge distillation. We propose a Text-driven Prompt Aggregation (TPA) that utilizes text features to enrich prompt elements and guide the prompt model to learn fine-grained representations for each instance. This can enhance the differentiation of identity information and establish the foundation for domain distribution awareness. Then, Distribution-based Awareness and Integration (DAI) is designed to capture each domain-specific distribution by a dedicated expert network and adaptively consolidate them into a shared region in high-dimensional space. In this manner, DAI can consolidate and enhance cross-domain shared representation learning while alleviating catastrophic forgetting. Furthermore, we develop a Knowledge Consolidation Mechanism (KCM) that comprises instance-level discrimination and cross-domain consistency alignment strategies to facilitate model adaptive learning of new knowledge from the current domain and promote knowledge consolidation learning between acquired domain-specific distributions, respectively. Experimental results show that our DAFC outperform state-of-the-art methods by at least 9.8\%/6.6\% and 6.4\%/6.2\% of average mAP/R@1 on two training orders.

arxiv情報

著者 Shiben Liu,Huijie Fan,Qiang Wang,Baojie Fan,Yandong Tang,Liangqiong Qu
発行日 2025-04-21 11:53:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Distribution-aware Forgetting Compensation for Exemplar-Free Lifelong Person Re-identification はコメントを受け付けていません

Depth Pro: Sharp Monocular Metric Depth in Less Than a Second

要約

ゼロショットメトリック単眼深度推定の基礎モデルを提示します。
私たちのモデルである深度プロは、比類のないシャープネスと高周波の詳細を備えた高解像度の深度マップを合成します。
予測は、カメラからのメタデータの入手可能性に依存することなく、絶対スケールのメトリックです。
モデルは高速で、標準GPUで0.3秒で2.25メガピクセルの深度マップを生成します。
これらの特性は、密な予測のための効率的なマルチスケールビジョン変圧器、実質的および合成データセットを組み合わせて微細境界の精度を実現するトレーニングプロトコル、推定された深さマップの境界精度の専用評価メトリック、および単一の画像からの最先端の焦点長さの推定を含む、多くの技術的貢献によって有効になっています。
広範な実験は、特定の設計の選択肢を分析し、深さプロが複数の次元に沿って以前の作業よりも優れていることを示しています。
https://github.com/apple/ml-depth-proでコードとウェイトをリリースします

要約(オリジナル)

We present a foundation model for zero-shot metric monocular depth estimation. Our model, Depth Pro, synthesizes high-resolution depth maps with unparalleled sharpness and high-frequency details. The predictions are metric, with absolute scale, without relying on the availability of metadata such as camera intrinsics. And the model is fast, producing a 2.25-megapixel depth map in 0.3 seconds on a standard GPU. These characteristics are enabled by a number of technical contributions, including an efficient multi-scale vision transformer for dense prediction, a training protocol that combines real and synthetic datasets to achieve high metric accuracy alongside fine boundary tracing, dedicated evaluation metrics for boundary accuracy in estimated depth maps, and state-of-the-art focal length estimation from a single image. Extensive experiments analyze specific design choices and demonstrate that Depth Pro outperforms prior work along multiple dimensions. We release code and weights at https://github.com/apple/ml-depth-pro

arxiv情報

著者 Aleksei Bochkovskii,Amaël Delaunoy,Hugo Germain,Marcel Santos,Yichao Zhou,Stephan R. Richter,Vladlen Koltun
発行日 2025-04-21 12:09:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Depth Pro: Sharp Monocular Metric Depth in Less Than a Second はコメントを受け付けていません

ScanEdit: Hierarchically-Guided Functional 3D Scan Editing

要約

3Dキャプチャテクノロジーの速いペースと結果として生じる3Dデータの豊富さにより、さまざまなグラフィックスアプリケーションに効果的な3Dシーン編集が不可欠になります。
この作業では、複雑で実世界の3Dスキャンの機能的編集のための命令主導の方法であるScaneditを提示します。
大規模で相互に依存したオブジェクトのセットをモデル化するには、階層的に誘導されたアプローチを提案します。
オブジェクトインスタンスに分解された3Dスキャンを考えると、最初に階層シーングラフ表現を構築して、効果的で扱いやすい編集を可能にします。
次に、大規模な言語モデル(LLMS)の推論機能を活用し、高レベルの言語命令を階層的に適用できる実用的なコマンドにシーングラフに翻訳します。
スキャンされたScaneditは、LLMベースのガイダンスをexclicticの物理的制約と統合し、オブジェクトの配置が物理学と常識の両方に従う現実的なシーンを生成します。
私たちの広範な実験的評価では、スキャンされたスキャンは最先端を上回り、さまざまな現実世界のシーンと入力命令に優れた結果を示しています。

要約(オリジナル)

With the fast pace of 3D capture technology and resulting abundance of 3D data, effective 3D scene editing becomes essential for a variety of graphics applications. In this work we present ScanEdit, an instruction-driven method for functional editing of complex, real-world 3D scans. To model large and interdependent sets of ob- jectswe propose a hierarchically-guided approach. Given a 3D scan decomposed into its object instances, we first construct a hierarchical scene graph representation to enable effective, tractable editing. We then leverage reason- ing capabilities of Large Language Models (LLMs) and translate high-level language instructions into actionable commands applied hierarchically to the scene graph. Fi- nally, ScanEdit integrates LLM-based guidance with ex- plicit physical constraints and generates realistic scenes where object arrangements obey both physics and common sense. In our extensive experimental evaluation ScanEdit outperforms state of the art and demonstrates excellent re- sults for a variety of real-world scenes and input instruc- tions.

arxiv情報

著者 Mohamed el amine Boudjoghra,Ivan Laptev,Angela Dai
発行日 2025-04-21 12:12:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ScanEdit: Hierarchically-Guided Functional 3D Scan Editing はコメントを受け付けていません

VeLU: Variance-enhanced Learning Unit for Deep Neural Networks

要約

活性化機能は、深いニューラルネットワークの基本であり、勾配の流れ、最適化の安定性、および一般化に直接影響を与えます。
Reluはその単純さのために標準のままですが、勾配の消失に苦しみ、適応性が欠けています。
SwishやGeluなどの代替案はスムーズな遷移を導入しますが、入力統計に動的に調整することはできません。
Arctan-Sin変換とWasserstein-2の正則化を統合し、共変量のシフトを効果的に緩和し、最適化を安定化することにより、入力分散に基づいて動的にスケーリングする活性化関数として、分散強化学習ユニットであるVeluを提案します。
VIT_B16、VGG19、RESNET50、DENSENET121、MOBILENETV2、およびEFFICIENTNETB3での広範な実験により、6つの視覚ベンチマークでのRelu、Relu6、Swish、およびGeluに対するVeluの優位性が確認されます。
VeluのコードはGithubで公開されています。

要約(オリジナル)

Activation functions are fundamental in deep neural networks and directly impact gradient flow, optimization stability, and generalization. Although ReLU remains standard because of its simplicity, it suffers from vanishing gradients and lacks adaptability. Alternatives like Swish and GELU introduce smooth transitions, but fail to dynamically adjust to input statistics. We propose VeLU, a Variance-enhanced Learning Unit as an activation function that dynamically scales based on input variance by integrating ArcTan-Sin transformations and Wasserstein-2 regularization, effectively mitigating covariate shifts and stabilizing optimization. Extensive experiments on ViT_B16, VGG19, ResNet50, DenseNet121, MobileNetV2, and EfficientNetB3 confirm VeLU’s superiority over ReLU, ReLU6, Swish, and GELU on six vision benchmarks. The codes of VeLU are publicly available on GitHub.

arxiv情報

著者 Ashkan Shakarami,Yousef Yeganeh,Azade Farshad,Lorenzo Nicolè,Stefano Ghidoni,Nassir Navab
発行日 2025-04-21 12:20:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | VeLU: Variance-enhanced Learning Unit for Deep Neural Networks はコメントを受け付けていません

Structure-guided Diffusion Transformer for Low-Light Image Enhancement

要約

拡散変圧器(DIT)は近年関心のある焦点となっていますが、低光の画像強化への適用は、探索のための空白の領域のままです。
現在のメソッドは、画像のノイズを必然的に増幅しながら、低光の画像から詳細を回復し、視覚的な品質が低下します。
この論文では、最初に低光の強化タスクにDITを導入し、新しい構造誘導拡散トランスベースの低光画像強化(SDTL)フレームワークを設計します。
ウェーブレット変換を介して特徴を圧縮して、モデルの推論効率を改善し、多方向周波数帯域をキャプチャします。
次に、テクスチャを強化する前に構造を使用する構造強化モジュール(SEM)を提案し、より正確な強化効果を実現するために適応融合戦略を活用します。
さらに、テクスチャが豊富なトークンにもっと注意を払って、ノイズ予測でノイズの多い領域からの干渉を避けるために、構造誘導の注意ブロック(SAB)を提案します。
広範な定性的および定量的実験は、この方法がいくつかの一般的なデータセットでSOTAパフォーマンスを達成し、画質の向上におけるSDTLの有効性と低光強化タスクでのDITの可能性を検証することを示しています。

要約(オリジナル)

While the diffusion transformer (DiT) has become a focal point of interest in recent years, its application in low-light image enhancement remains a blank area for exploration. Current methods recover the details from low-light images while inevitably amplifying the noise in images, resulting in poor visual quality. In this paper, we firstly introduce DiT into the low-light enhancement task and design a novel Structure-guided Diffusion Transformer based Low-light image enhancement (SDTL) framework. We compress the feature through wavelet transform to improve the inference efficiency of the model and capture the multi-directional frequency band. Then we propose a Structure Enhancement Module (SEM) that uses structural prior to enhance the texture and leverages an adaptive fusion strategy to achieve more accurate enhancement effect. In Addition, we propose a Structure-guided Attention Block (SAB) to pay more attention to texture-riched tokens and avoid interference from noisy areas in noise prediction. Extensive qualitative and quantitative experiments demonstrate that our method achieves SOTA performance on several popular datasets, validating the effectiveness of SDTL in improving image quality and the potential of DiT in low-light enhancement tasks.

arxiv情報

著者 Xiangchen Yin,Zhenda Yu,Longtao Jiang,Xin Gao,Xiao Sun,Zhi Liu,Xun Yang
発行日 2025-04-21 12:30:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Structure-guided Diffusion Transformer for Low-Light Image Enhancement はコメントを受け付けていません

Direct Learning of Mesh and Appearance via 3D Gaussian Splatting

要約

明示的なジオメトリ情報を含む3Dシーンを正確に再構築することは、魅力的で挑戦的です。
ジオメトリ再構成は、神経放射輝度フィールドや3Dガウススプラッティング(3DG)などの微分可能な外観モデルを組み込むことで利益を得ることができます。
ただし、既存の方法は、間接的なジオメトリ学習と、形状と表面の外観を個別にモデル化するパラダイムによる効率の問題が発生します。
この作業では、明示的なジオメトリ表現、つまりメッシュを含む3DGを組み込んだ学習可能なシーンモデルを提案します。
私たちのモデルは、メッシュと外観をエンドツーエンドの方法で学習し、3Dガウスをメッシュ面に結合し、3DGの微分可能なレンダリングを実行して測光監督を取得します。
このモデルは、3DGとメッシュの両方の学習を監督するための効果的な情報経路を作成します。
実験結果は、学習されたシーンモデルが効率を改善し、品質を向上させるだけでなく、明示的なメッシュを介した操作を可能にすることを示しています。
さらに、私たちのモデルは、メッシュと外観の両方のエンドツーエンドの学習のおかげで、シーンの更新に適応する上でユニークな利点があります。

要約(オリジナル)

Accurately reconstructing a 3D scene including explicit geometry information is both attractive and challenging. Geometry reconstruction can benefit from incorporating differentiable appearance models, such as Neural Radiance Fields and 3D Gaussian Splatting (3DGS). However, existing methods encounter efficiency issues due to indirect geometry learning and the paradigm of separately modeling geometry and surface appearance. In this work, we propose a learnable scene model that incorporates 3DGS with an explicit geometry representation, namely a mesh. Our model learns the mesh and appearance in an end-to-end manner, where we bind 3D Gaussians to the mesh faces and perform differentiable rendering of 3DGS to obtain photometric supervision. The model creates an effective information pathway to supervise the learning of both 3DGS and mesh. Experimental results demonstrate that the learned scene model not only improves efficiency and rendering quality but also enables manipulation via the explicit mesh. In addition, our model has a unique advantage in adapting to scene updates, thanks to the end-to-end learning of both mesh and appearance.

arxiv情報

著者 Ancheng Lin,Yusheng Xiang,Paul Kennedy,Jun Li
発行日 2025-04-21 12:33:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Direct Learning of Mesh and Appearance via 3D Gaussian Splatting はコメントを受け付けていません

Hierarchical Attention Fusion of Visual and Textual Representations for Cross-Domain Sequential Recommendation

要約

クロスドメインの連続的な推奨事項(CDSR)は、複数のドメインにわたって歴史的な相互作用を活用してユーザーの動作を予測し、シーケンス間および介入のアイテム関係を通じてクロスドメインの好みをモデリングすることに焦点を当てています。
人間の認知プロセスに触発されて、視覚的およびテキスト表現(HAF-VT)の階層的な注意融合を提案します。これは、視覚データとテキストデータを統合して認知モデリングを強化する新しいアプローチです。
フローズンクリップモデルを使用して、画像とテキストの埋め込みを生成し、マルチモーダルデータでアイテム表現を濃縮します。
階層的な注意メカニズムは、単一ドメインとクロスドメインの好みを共同で学習し、人間の情報統合を模倣します。
4つのeコマースデータセットで評価されているHAF-VTは、ドメインのユーザーの関心をキャプチャし、認知原理を計算モデルで埋め、順次意思決定におけるマルチモーダルデータの役割を強調する際に既存の方法を上回ります。

要約(オリジナル)

Cross-Domain Sequential Recommendation (CDSR) predicts user behavior by leveraging historical interactions across multiple domains, focusing on modeling cross-domain preferences through intra- and inter-sequence item relationships. Inspired by human cognitive processes, we propose Hierarchical Attention Fusion of Visual and Textual Representations (HAF-VT), a novel approach integrating visual and textual data to enhance cognitive modeling. Using the frozen CLIP model, we generate image and text embeddings, enriching item representations with multimodal data. A hierarchical attention mechanism jointly learns single-domain and cross-domain preferences, mimicking human information integration. Evaluated on four e-commerce datasets, HAF-VT outperforms existing methods in capturing cross-domain user interests, bridging cognitive principles with computational models and highlighting the role of multimodal data in sequential decision-making.

arxiv情報

著者 Wangyu Wu,Zhenhong Chen,Siqi Song,Xianglin Qiua,Xiaowei Huang,Fei Ma,Jimin Xiao
発行日 2025-04-21 13:18:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Hierarchical Attention Fusion of Visual and Textual Representations for Cross-Domain Sequential Recommendation はコメントを受け付けていません

VistaDepth: Frequency Modulation With Bias Reweighting For Enhanced Long-Range Depth Estimation

要約

単眼深度推定(MDE)は、単一のRGB画像からピクセルあたりの深度値を予測することを目的としています。
最近の進歩により、拡散モデルは、条件付き画像生成タスクとしてチャレンジをフレーミングすることにより、効果的なMDEツールとして位置づけられています。
それらの進歩にもかかわらず、これらの方法は、主に深さ値の不均衡な分布と空間領土機能への過度の依存のために、遠い深さを正確に再構築することに苦労します。
これらの制限を克服するために、適応性のある周波数ドメイン特徴の機能強化を適応型重量バランスメカニズムと拡散プロセスに統合する新しいフレームワークであるVistadepthを紹介します。
私たちのアプローチの中心は、潜在周波数変調(LFM)モジュールであり、潜在的な特徴空間のスペクトル応答を動的に改良し、それにより構造の詳細の保存を改善し、ノイズの多いアーティファクトを減らします。
さらに、拡散損失をリアルタイムで調節する適応重み戦略を実装し、遠い深度再構成に対するモデルの感度を高めます。
これらのイノベーションは、距離と詳細の両方で優れた深さの知覚パフォーマンスを集合的にもたらします。
実験的評価では、Vistadepthが拡散ベースのMDE技術の間で最先端のパフォーマンスを達成し、特に遠い地域の正確な再構築に優れていることが確認されています。

要約(オリジナル)

Monocular depth estimation (MDE) aims to predict per-pixel depth values from a single RGB image. Recent advancements have positioned diffusion models as effective MDE tools by framing the challenge as a conditional image generation task. Despite their progress, these methods often struggle with accurately reconstructing distant depths, due largely to the imbalanced distribution of depth values and an over-reliance on spatial-domain features. To overcome these limitations, we introduce VistaDepth, a novel framework that integrates adaptive frequency-domain feature enhancements with an adaptive weight-balancing mechanism into the diffusion process. Central to our approach is the Latent Frequency Modulation (LFM) module, which dynamically refines spectral responses in the latent feature space, thereby improving the preservation of structural details and reducing noisy artifacts. Furthermore, we implement an adaptive weighting strategy that modulates the diffusion loss in real-time, enhancing the model’s sensitivity towards distant depth reconstruction. These innovations collectively result in superior depth perception performance across both distance and detail. Experimental evaluations confirm that VistaDepth achieves state-of-the-art performance among diffusion-based MDE techniques, particularly excelling in the accurate reconstruction of distant regions.

arxiv情報

著者 Mingxia Zhan,Li Zhang,XiaoMeng Chu,Beibei Wang
発行日 2025-04-21 13:30:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VistaDepth: Frequency Modulation With Bias Reweighting For Enhanced Long-Range Depth Estimation はコメントを受け付けていません

STI-Bench: Are MLLMs Ready for Precise Spatial-Temporal World Understanding?

要約

具体化されたAIおよび自律運転のためのエンドツーエンドのソリューションとしてのマルチモーダル大手言語モデル(MLLM)の使用が一般的な傾向になりました。
MLLMは視覚的なセマンティック理解タスクのために広範囲に研究されていますが、実際のアプリケーションで正確かつ定量的な空間的理解を実行する能力は、ほとんど未検証のままであり、不確実な見通しにつながります。
モデルの空間的知能を評価するために、外観、ポーズ、変位、およびオブジェクトの動きの推定と予測などの挑戦的なタスクを通じてMLLMの空間的理解を評価するために設計されたベンチマークであるSTIベンチを導入します。
当社のベンチマークには、デスクトップ、屋内、屋外のシナリオ全体で、幅広いロボットと車両の運用が含まれています。
広範な実験は、最先端のMLLMが、特に正確な距離推定とモーション分析を必要とするタスクで、現実世界の空間的理解に依然として苦労していることを明らかにしています。

要約(オリジナル)

The use of Multimodal Large Language Models (MLLMs) as an end-to-end solution for Embodied AI and Autonomous Driving has become a prevailing trend. While MLLMs have been extensively studied for visual semantic understanding tasks, their ability to perform precise and quantitative spatial-temporal understanding in real-world applications remains largely unexamined, leading to uncertain prospects. To evaluate models’ Spatial-Temporal Intelligence, we introduce STI-Bench, a benchmark designed to evaluate MLLMs’ spatial-temporal understanding through challenging tasks such as estimating and predicting the appearance, pose, displacement, and motion of objects. Our benchmark encompasses a wide range of robot and vehicle operations across desktop, indoor, and outdoor scenarios. The extensive experiments reveals that the state-of-the-art MLLMs still struggle in real-world spatial-temporal understanding, especially in tasks requiring precise distance estimation and motion analysis.

arxiv情報

著者 Yun Li,Yiming Zhang,Tao Lin,XiangRui Liu,Wenxiao Cai,Zheng Liu,Bo Zhao
発行日 2025-04-21 13:43:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | STI-Bench: Are MLLMs Ready for Precise Spatial-Temporal World Understanding? はコメントを受け付けていません

A triple-branch network for latent fingerprint enhancement guided by orientation fields and minutiae

要約

潜在指紋の強化は、潜在的な指紋識別のプロセスにおける重要なステップです。
既存の深い学習ベースの強化方法は、特に低品質の指紋領域の復元において、実用的なアプリケーション要件に依然として不足しています。
潜在指紋のさまざまな領域には明確な強化戦略が必要であることを認識して、トリプルブランチ空間融合ネットワーク(TBSFNET)を提案します。これは、テーラード戦略を使用して画像の異なる領域を同時に強化します。
さらに、ネットワークの一般化能力を改善するために、方向フィールドとMinutiae関連のモジュールをTBSFNETに統合し、マルチレベル機能ガイダンスネットワーク(MLFGNET)を導入します。
モルフとマストデータセットの実験結果は、MLFGNETが既存の拡張アルゴリズムを上回ることを示しています。

要約(オリジナル)

Latent fingerprint enhancement is a critical step in the process of latent fingerprint identification. Existing deep learning-based enhancement methods still fall short of practical application requirements, particularly in restoring low-quality fingerprint regions. Recognizing that different regions of latent fingerprints require distinct enhancement strategies, we propose a Triple Branch Spatial Fusion Network (TBSFNet), which simultaneously enhances different regions of the image using tailored strategies. Furthermore, to improve the generalization capability of the network, we integrate orientation field and minutiae-related modules into TBSFNet and introduce a Multi-Level Feature Guidance Network (MLFGNet). Experimental results on the MOLF and MUST datasets demonstrate that MLFGNet outperforms existing enhancement algorithms.

arxiv情報

著者 Yurun Wang,Zerong Qi,Shujun Fu,Mingzheng Hu
発行日 2025-04-21 13:54:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | A triple-branch network for latent fingerprint enhancement guided by orientation fields and minutiae はコメントを受け付けていません