LENVIZ: A High-Resolution Low-Exposure Night Vision Benchmark Dataset

要約

低光の画像強化は、暗視や監視から自律運転まで、無数の用途にとって非常に重要です。
ただし、低照射環境で画像をキャプチャすることに取り組んでいる固有の制限があるため、そのようなシーンを強化するタスクは依然として手ごわい課題を提示しています。
この分野での研究を進めるために、24k以上の実世界の屋内および屋外を紹介する230kを超えるフレームを含む低照度の画像エンハンスメントのための包括的なマルチエクスポジュアベンチマークデータセットである低曝露暗視(Lenviz)データセットを紹介します。
3つの異なるカメラセンサーを使用してキャプチャされたLenvizは、幅広い照明条件、騒音レベル、シーンの複雑さを提供し、フィールドで最大の4K最大の解像度ベンチマークになります。
Lenvizには、高品質の人間で生成されたグラウンドトゥルースが含まれており、各マルチエクスポジュアの低い光線シーンは、最適な画質を確保するために専門の写真家によって細心の注意を払ってキュレーションおよび編集されています。
さらに、データセットで現在の最先端の低光画像強化技術の包括的な分析を実施し、改善の潜在的な領域を強調します。

要約(オリジナル)

Low-light image enhancement is crucial for a myriad of applications, from night vision and surveillance, to autonomous driving. However, due to the inherent limitations that come in hand with capturing images in low-illumination environments, the task of enhancing such scenes still presents a formidable challenge. To advance research in this field, we introduce our Low Exposure Night Vision (LENVIZ) Dataset, a comprehensive multi-exposure benchmark dataset for low-light image enhancement comprising of over 230K frames showcasing 24K real-world indoor and outdoor, with-and without human, scenes. Captured using 3 different camera sensors, LENVIZ offers a wide range of lighting conditions, noise levels, and scene complexities, making it the largest publicly available up-to 4K resolution benchmark in the field. LENVIZ includes high quality human-generated ground truth, for which each multi-exposure low-light scene has been meticulously curated and edited by expert photographers to ensure optimal image quality. Furthermore, we also conduct a comprehensive analysis of current state-of-the-art low-light image enhancement techniques on our dataset and highlight potential areas of improvement.

arxiv情報

著者 Manjushree Aithal,Rosaura G. VidalMata,Manikandtan Kartha,Gong Chen,Eashan Adhikarla,Lucas N. Kirsten,Zhicheng Fu,Nikhil A. Madhusudhana,Joe Nasti
発行日 2025-03-25 16:12:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | LENVIZ: A High-Resolution Low-Exposure Night Vision Benchmark Dataset はコメントを受け付けていません

GCC: Generative Color Constancy via Diffusing a Color Checker

要約

色の恒常性の方法は、さまざまなスペクトル感度のために、さまざまなカメラセンサー全体で一般化するのに苦労しています。
GCCを提示します。GCCは、拡散モデルを塗装台のチェッカーにレバレッジして、照明推定のために画像にレバリットします。
私たちの主要な革新には、(1)シーンの照明を反映した塗装色のカラーチェッカーを塗装する単一ステップの決定論的推論アプローチ、(2)チェッカー構造を維持しながら照明依存の色の適応を維持するラプラシアン分解技術、および(3)不正な色のチェッカー年金の取り扱いのためのマスクベースのデータ拡大戦略。
事前に訓練された拡散モデルから豊かな事前に活用することにより、GCCは挑戦的なクロスカメラシナリオにおいて強い堅牢性を示しています。
これらの結果は、センサー固有のトレーニングを必要とせずに、さまざまなカメラの特性にわたる方法の効果的な一般化能力を強調し、実際のアプリケーションに汎用性が高く実用的なソリューションになります。

要約(オリジナル)

Color constancy methods often struggle to generalize across different camera sensors due to varying spectral sensitivities. We present GCC, which leverages diffusion models to inpaint color checkers into images for illumination estimation. Our key innovations include (1) a single-step deterministic inference approach that inpaints color checkers reflecting scene illumination, (2) a Laplacian decomposition technique that preserves checker structure while allowing illumination-dependent color adaptation, and (3) a mask-based data augmentation strategy for handling imprecise color checker annotations. By harnessing rich priors from pre-trained diffusion models, GCC demonstrates strong robustness in challenging cross-camera scenarios. These results highlight our method’s effective generalization capability across different camera characteristics without requiring sensor-specific training, making it a versatile and practical solution for real-world applications.

arxiv情報

著者 Chen-Wei Chang,Cheng-De Fan,Chia-Che Chang,Yi-Chen Lo,Yu-Chee Tseng,Jiun-Long Huang,Yu-Lun Liu
発行日 2025-03-25 16:17:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | GCC: Generative Color Constancy via Diffusing a Color Checker はコメントを受け付けていません

FREE-Merging: Fourier Transform for Efficient Model Merging

要約

深い学習の急速な成長に伴い、さまざまなタスクのオープンソースモデルの可用性が高まっています。
ただし、単一の微調整されたモデルは、ユーザーの多様なニーズを満たすことができないことがよくあります。
したがって、モデルのマージは、既存のモデルの機能を統一されたモデルに統合する効率的な方法として浮上しています。
それにもかかわらず、既存のモデルの統合方法は、主にタスクの干渉によるパフォーマンスと展開コストの間の挑戦的なトレードオフに直面しています。
初めて、タスク干渉はモデルパラメーターの周波数領域で明らかであることが明らかになりましたが、現在の取り組みは、周波数ドメイン干渉にほとんど対処するのにほとんど効果がない空間ドメインソリューションに焦点を当てていることを明らかにします。
周波数ドメイン干渉の影響を緩和するために、FR-Mergingを提案します。FR-Mergingは、最小限の計算オーバーヘッドでバックボーンに有害な周波数ドメイン干渉を効果的にろ過する革新的な方法です。
コストフリーの方法ではパフォーマンスの損失は避けられないため、合併中の情報損失を動的に補償する軽量のタスク固有のエキスパートモジュールを提案します。
この提案されたフレームワーク、フリーマザー(専門家とのFRマザー)は、トレーニングコスト、推論の遅延、ストレージ要件、およびパフォーマンスのバランスの取れたトレードオフを攻撃します。
CV、NLP、およびマルチモーダルドメインの複数のタスクでFRマースとフリーマザーの両方の有効性を実証し、特定のニーズに柔軟に適応できることを示しています。

要約(オリジナル)

With the rapid growth of deep learning, there is an increasing availability of open-source models for various tasks. However, single fine-tuned models often fall short of meeting the diverse needs of users. Model merging has thus emerged as an efficient method to integrate the capabilities of existing models into a unified model. Nevertheless, existing model merging methods face challenging trade-offs between performance and deployment costs, primarily due to task interference. For the first time, we reveal that task interference is evident in the frequency domain of model parameters, yet current efforts only focus on spatial domain solutions, which are largely ineffective in addressing frequency domain interference. To mitigate the impact of frequency domain interference, we propose FR-Merging, an innovative method that effectively filters harmful frequency domain interference on the backbone with minimal computational overhead. Since performance loss is inevitable with cost-free methods, we propose a lightweight task-specific expert module that dynamically compensates for information loss during merging. This proposed framework, FREE-Merging (FR-Merging with experts), strikes a balanced trade-off between training cost, inference latency, storage requirements, and performance. We demonstrate the effectiveness of both FR-Merging and FREE-Merging on multiple tasks across CV, NLP, and Multi-Modal domains and show that they can be flexibly adapted to specific needs.

arxiv情報

著者 Shenghe Zheng,Hongzhi Wang
発行日 2025-03-25 16:19:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FREE-Merging: Fourier Transform for Efficient Model Merging はコメントを受け付けていません

AuraFusion360: Augmented Unseen Region Alignment for Reference-based 360° Unbounded Scene Inpainting

要約

3次元のシーンの入力は、仮想現実からアーキテクチャの視覚化までのアプリケーションにとって非常に重要ですが、既存の方法は、360 {\ deg}無制限のシーンでの視界の一貫性と幾何学的精度に苦しんでいます。
Gaussian Splattingに代表される3Dシーンで高品質のオブジェクトの除去と穴の充填を可能にする新しい参照ベースの方法であるAurafusion360を提示します。
私たちのアプローチでは、(1)正確な閉塞識別のために(1)深さに対応していないマスク生成、(2)適応誘導深度拡散、追加のトレーニングを必要とせずに正確な初期点配置のためのゼロショット方法、および(3)マルチビューコヒーレンスのためのSDEDITベースの詳細強化。
また、360-USIDである360 {\ deg}の最初の包括的なデータセットであり、グラウンドトゥルースで入力されています。
広範な実験は、Aurafusion360が既存の方法を大幅に上回り、劇的な視点の変化全体で幾何学的精度を維持しながら優れた知覚品質を達成することを示しています。

要約(オリジナル)

Three-dimensional scene inpainting is crucial for applications from virtual reality to architectural visualization, yet existing methods struggle with view consistency and geometric accuracy in 360{\deg} unbounded scenes. We present AuraFusion360, a novel reference-based method that enables high-quality object removal and hole filling in 3D scenes represented by Gaussian Splatting. Our approach introduces (1) depth-aware unseen mask generation for accurate occlusion identification, (2) Adaptive Guided Depth Diffusion, a zero-shot method for accurate initial point placement without requiring additional training, and (3) SDEdit-based detail enhancement for multi-view coherence. We also introduce 360-USID, the first comprehensive dataset for 360{\deg} unbounded scene inpainting with ground truth. Extensive experiments demonstrate that AuraFusion360 significantly outperforms existing methods, achieving superior perceptual quality while maintaining geometric accuracy across dramatic viewpoint changes.

arxiv情報

著者 Chung-Ho Wu,Yang-Jung Chen,Ying-Huan Chen,Jie-Ying Lee,Bo-Hsu Ke,Chun-Wei Tuan Mu,Yi-Chuan Huang,Chin-Yang Lin,Min-Hung Chen,Yen-Yu Lin,Yu-Lun Liu
発行日 2025-03-25 16:21:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | AuraFusion360: Augmented Unseen Region Alignment for Reference-based 360° Unbounded Scene Inpainting はコメントを受け付けていません

HyperFLINT: Hypernetwork-based Flow Estimation and Temporal Interpolation for Scientific Ensemble Visualization

要約

ハイパーフリント(ハイパーネットワークベースのフロー推定と時間的補間)、フローフィールドを推定するための新しいディープラーニングベースのアプローチ、時間的に補間スカラーフィールド、および時空間的科学アンサンブルデータのパラメータースペース探索を促進するための新しいディープラーニングベースのアプローチを提示します。
この作業は、従来の方法がこれらを無視し、多様なシミュレーション設定に適応する能力を制限し、データダイナミクスに関する意味のある洞察を提供する能力を制限するため、学習プロセスにアンサンブルパラメーターを明示的に組み込む重要なニーズに対処します。
Hyperflintは、シミュレーションパラメーターを説明するためにハイパーネットワークを導入し、さまざまな条件に動的に適応することにより、各タイムステップの正確な拡大とフローフィールドを生成し、それにより既存のパラメーターに依存しないアプローチを上回ります。
アーキテクチャは、メインネットワークの重みを生成するハイパーネットワークでサポートされている畳み込みおよび脱骨溶解層を備えたモジュラーニューラルブロックを備えており、モデルが複雑なシミュレーションダイナミクスをよりよくキャプチャできるようにします。
一連の実験では、ハイパーフリントのフローフィールド推定と時間的補間におけるパフォーマンスが大幅に向上し、パラメータースペース探索を可能にする可能性があり、複雑な科学アンサンブルへの貴重な洞察を提供します。

要約(オリジナル)

We present HyperFLINT (Hypernetwork-based FLow estimation and temporal INTerpolation), a novel deep learning-based approach for estimating flow fields, temporally interpolating scalar fields, and facilitating parameter space exploration in spatio-temporal scientific ensemble data. This work addresses the critical need to explicitly incorporate ensemble parameters into the learning process, as traditional methods often neglect these, limiting their ability to adapt to diverse simulation settings and provide meaningful insights into the data dynamics. HyperFLINT introduces a hypernetwork to account for simulation parameters, enabling it to generate accurate interpolations and flow fields for each timestep by dynamically adapting to varying conditions, thereby outperforming existing parameter-agnostic approaches. The architecture features modular neural blocks with convolutional and deconvolutional layers, supported by a hypernetwork that generates weights for the main network, allowing the model to better capture intricate simulation dynamics. A series of experiments demonstrates HyperFLINT’s significantly improved performance in flow field estimation and temporal interpolation, as well as its potential in enabling parameter space exploration, offering valuable insights into complex scientific ensembles.

arxiv情報

著者 Hamid Gadirov,Qi Wu,David Bauer,Kwan-Liu Ma,Jos Roerdink,Steffen Frey
発行日 2025-03-25 16:27:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG | HyperFLINT: Hypernetwork-based Flow Estimation and Temporal Interpolation for Scientific Ensemble Visualization はコメントを受け付けていません

Domain-incremental White Blood Cell Classification with Privacy-aware Continual Learning

要約

白血球(WBC)分類は、さまざまな病状を診断するために血液学において重要な役割を果たしています。
ただし、サンプルソース(血液または骨髄など)の変動と病院全体の異なる画像条件によって引き起こされるドメインシフトにより、大きな課題に直面しています。
従来の深い学習モデルは、このような動的な環境で壊滅的な忘却に苦しむことがよくありますが、基礎モデルは、一般的に堅牢ですが、推論データの分布がトレーニングデータの分布とは異なる場合にパフォーマンスの劣化を経験します。
これらの課題に対処するために、WBC分類のための基礎モデルの忘却を防ぐために設計された生成リプレイベースの継続学習(CL)戦略を提案します。
私たちの方法では、軽量ジェネレーターを採用して、過去のデータを合成潜在表現で模倣して、プライバシーを提供するリプレイを可能にします。
有効性を紹介するために、さまざまなタスク順序を持つ合計4つのデータセットと、RESNET50、RETCCL、Ctranspath、およびUNIを含む4つのバックボーンモデルで広範な実験を実行します。
実験結果は、従来の微調整方法が以前に学んだタスクでパフォーマンスを低下させ、ドメインシフトとの闘いを示しています。
対照的に、私たちの継続的な学習戦略は、壊滅的な忘却を効果的に緩和し、さまざまなドメイン全体でモデルのパフォーマンスを維持します。
この作業は、データ分布が頻繁に進化する実際の臨床設定で信頼できるWBC分類を維持するための実用的なソリューションを提示します。

要約(オリジナル)

White blood cell (WBC) classification plays a vital role in hematology for diagnosing various medical conditions. However, it faces significant challenges due to domain shifts caused by variations in sample sources (e.g., blood or bone marrow) and differing imaging conditions across hospitals. Traditional deep learning models often suffer from catastrophic forgetting in such dynamic environments, while foundation models, though generally robust, experience performance degradation when the distribution of inference data differs from that of the training data. To address these challenges, we propose a generative replay-based Continual Learning (CL) strategy designed to prevent forgetting in foundation models for WBC classification. Our method employs lightweight generators to mimic past data with a synthetic latent representation to enable privacy-preserving replay. To showcase the effectiveness, we carry out extensive experiments with a total of four datasets with different task ordering and four backbone models including ResNet50, RetCCL, CTransPath, and UNI. Experimental results demonstrate that conventional fine-tuning methods degrade performance on previously learned tasks and struggle with domain shifts. In contrast, our continual learning strategy effectively mitigates catastrophic forgetting, preserving model performance across varying domains. This work presents a practical solution for maintaining reliable WBC classification in real-world clinical settings, where data distributions frequently evolve.

arxiv情報

著者 Pratibha Kumari,Afshin Bozorgpour,Daniel Reisenbüchler,Edgar Jost,Martina Crysandt,Christian Matek,Dorit Merhof
発行日 2025-03-25 16:30:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Domain-incremental White Blood Cell Classification with Privacy-aware Continual Learning はコメントを受け付けていません

UrbanCAD: Towards Highly Controllable and Photorealistic 3D Vehicles for Urban Scene Simulation

要約

自律運転シミュレーションとデータ増強には、制御可能性が高い光リアリスティックな3D車両モデルが不可欠です。
手作りのCADモデルは柔軟な制御可能性を提供しますが、フリーCADライブラリには、光線現実的なレンダリングに必要な高品質の材料が不足していることがよくあります。
逆に、再構築された3Dモデルは高忠実度のレンダリングを提供しますが、制御可能性がありません。
この作業では、単一の都市イメージから非常に制御可能でフォトリアリスティックな3D車両双子を生成するフレームワークであるUrbancadを紹介し、無料の3D CADモデルと手作りの素材の大規模なコレクションを活用します。
これを達成するために、検索最適化の方法に続く新しいパイプラインを提案し、幾何学と材料の両方に対してきめ細かい専門家が設計したプライアーを保持しながら観察データに適応します。
これにより、車両の現実的な360度レンダリング、バックグラウンド挿入、材料転送、再生、およびコンポーネント操作が可能になります。
さらに、マルチビューの背景視点と魚眼画像を考えると、魚眼の画像を使用して環境照明を近似し、3DGで背景を再構築し、最適化されたCADモデルをレンダリングされた新規ビューの背景にフォトリアリックな挿入を可能にします。
実験結果は、都市が光子現実主義の観点からベースラインよりも優れていることを示しています。
さらに、さまざまな知覚モデルが、分散貢献構成でUrbancadで評価されると精度を維持しますが、メソッドによって生成された現実的な分散データに適用されると劣化することを示します。
これは、Urbancadが、ダウンストリームアプリケーションのために光選挙的で安全性の高い運転シナリオを作成する上で重要な進歩であることを示唆しています。

要約(オリジナル)

Photorealistic 3D vehicle models with high controllability are essential for autonomous driving simulation and data augmentation. While handcrafted CAD models provide flexible controllability, free CAD libraries often lack the high-quality materials necessary for photorealistic rendering. Conversely, reconstructed 3D models offer high-fidelity rendering but lack controllability. In this work, we introduce UrbanCAD, a framework that generates highly controllable and photorealistic 3D vehicle digital twins from a single urban image, leveraging a large collection of free 3D CAD models and handcrafted materials. To achieve this, we propose a novel pipeline that follows a retrieval-optimization manner, adapting to observational data while preserving fine-grained expert-designed priors for both geometry and material. This enables vehicles’ realistic 360-degree rendering, background insertion, material transfer, relighting, and component manipulation. Furthermore, given multi-view background perspective and fisheye images, we approximate environment lighting using fisheye images and reconstruct the background with 3DGS, enabling the photorealistic insertion of optimized CAD models into rendered novel view backgrounds. Experimental results demonstrate that UrbanCAD outperforms baselines in terms of photorealism. Additionally, we show that various perception models maintain their accuracy when evaluated on UrbanCAD with in-distribution configurations but degrade when applied to realistic out-of-distribution data generated by our method. This suggests that UrbanCAD is a significant advancement in creating photorealistic, safety-critical driving scenarios for downstream applications.

arxiv情報

著者 Yichong Lu,Yichi Cai,Shangzhan Zhang,Hongyu Zhou,Haoji Hu,Huimin Yu,Andreas Geiger,Yiyi Liao
発行日 2025-03-25 16:32:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | UrbanCAD: Towards Highly Controllable and Photorealistic 3D Vehicles for Urban Scene Simulation はコメントを受け付けていません

GyralNet Subnetwork Partitioning via Differentiable Spectral Modularity Optimization

要約

人間の脳の構造的および機能的組織を理解するには、皮質折りたたみ式パターンの詳細な調査が必要であり、その中で3ヒンジ(3Hg)が重要な構造ランドマークとして特定されています。
皮質折りたたみのネットワーク表現であるGyralnetは、ノードとして3HGを縁としてのジャイラル紋章としてモデル化し、皮質皮質の接続性における重要なハブとしての役割を強調しています。
ただし、3HGを分析するための既存の方法は、典型的なニューロイメージング解像度での3HGのサブボクセルスケール、クロスサブジェクトの対応を確立するための計算の複雑さ、および3HGをコミュニティレベルの関係を考慮せずに独立したノードとして単純化することを含む、重大な課題に直面しています。
これらの制限に対処するために、GyralNet内の3HGの組織化をモジュール化するためにスペクトルモジュール性の最大化最適化戦略を採用する完全に微分可能なサブネットワークパーティションフレームワークを提案します。
属性の特徴としてトポロジー構造の類似性とDTI由来の接続パターンを組み込むことにより、私たちのアプローチは皮質組織の生物学的に意味のある表現を提供します。
Human Connectome Project(HCP)データセットに関する広範な実験は、私たちの方法が個々のレベルでGyralnetを効果的に分割しながら、被験者間の3Hgのコミュニティレベルの一貫性を維持し、脳のつながりを理解するための堅牢な基盤を提供することを示しています。

要約(オリジナル)

Understanding the structural and functional organization of the human brain requires a detailed examination of cortical folding patterns, among which the three-hinge gyrus (3HG) has been identified as a key structural landmark. GyralNet, a network representation of cortical folding, models 3HGs as nodes and gyral crests as edges, highlighting their role as critical hubs in cortico-cortical connectivity. However, existing methods for analyzing 3HGs face significant challenges, including the sub-voxel scale of 3HGs at typical neuroimaging resolutions, the computational complexity of establishing cross-subject correspondences, and the oversimplification of treating 3HGs as independent nodes without considering their community-level relationships. To address these limitations, we propose a fully differentiable subnetwork partitioning framework that employs a spectral modularity maximization optimization strategy to modularize the organization of 3HGs within GyralNet. By incorporating topological structural similarity and DTI-derived connectivity patterns as attribute features, our approach provides a biologically meaningful representation of cortical organization. Extensive experiments on the Human Connectome Project (HCP) dataset demonstrate that our method effectively partitions GyralNet at the individual level while preserving the community-level consistency of 3HGs across subjects, offering a robust foundation for understanding brain connectivity.

arxiv情報

著者 Yan Zhuang,Minheng Chen,Chao Cao,Tong Chen,Jing Zhang,Xiaowei Yu,Yanjun Lyu,Lu Zhang,Tianming Liu,Dajiang Zhu
発行日 2025-03-25 16:33:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, q-bio.NC | GyralNet Subnetwork Partitioning via Differentiable Spectral Modularity Optimization はコメントを受け付けていません

AudCast: Audio-Driven Human Video Generation by Cascaded Diffusion Transformers

要約

オーディオ駆動型のビデオ生成の最近の進歩にもかかわらず、既存の方法は主に顔の動きを駆動することに焦点を当てており、非共同頭部と身体のダイナミクスにつながります。
今後は、正確なリップシンクとデリケートな共同スピーチジェスチャーW.R.Tの両方で、全体的な人間のビデオを生成することが望ましいが、挑戦的です。
指定されたオーディオ。
この作業では、参照画像と特定のオーディオに基づいて全体的な人間のビデオを合成するカスケード拡散変換(DITS)パラダイムを採用する一般化されたオーディオ駆動型の人間ビデオ生成フレームワークであるAudcastを提案します。
1)まず、鮮明なジェスチャーのダイナミクスであらゆる人体の動きを直接駆動するために、オーディオコンディショニングされた全体的な人間のDITアーキテクチャが提案されています。
2)その後、扱いにくい手と対面の詳細を強化するために、地域の洗練により、地域の3Dフィッティングが信号を改革するためのブリッジとして、最終結果を生み出します。
広範な実験は、私たちのフレームワークが、一時的な一貫性と細かいフェイシャルと手の詳細を備えた高忠実度のオーディオ駆動型のホリスティックなビデオを生成することを示しています。
リソースはhttps://guanjz20.github.io/projects/audcastにあります。

要約(オリジナル)

Despite the recent progress of audio-driven video generation, existing methods mostly focus on driving facial movements, leading to non-coherent head and body dynamics. Moving forward, it is desirable yet challenging to generate holistic human videos with both accurate lip-sync and delicate co-speech gestures w.r.t. given audio. In this work, we propose AudCast, a generalized audio-driven human video generation framework adopting a cascade Diffusion-Transformers (DiTs) paradigm, which synthesizes holistic human videos based on a reference image and a given audio. 1) Firstly, an audio-conditioned Holistic Human DiT architecture is proposed to directly drive the movements of any human body with vivid gesture dynamics. 2) Then to enhance hand and face details that are well-knownly difficult to handle, a Regional Refinement DiT leverages regional 3D fitting as the bridge to reform the signals, producing the final results. Extensive experiments demonstrate that our framework generates high-fidelity audio-driven holistic human videos with temporal coherence and fine facial and hand details. Resources can be found at https://guanjz20.github.io/projects/AudCast.

arxiv情報

著者 Jiazhi Guan,Kaisiyuan Wang,Zhiliang Xu,Quanwei Yang,Yasheng Sun,Shengyi He,Borong Liang,Yukang Cao,Yingying Li,Haocheng Feng,Errui Ding,Jingdong Wang,Youjian Zhao,Hang Zhou,Ziwei Liu
発行日 2025-03-25 16:38:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.MM | AudCast: Audio-Driven Human Video Generation by Cascaded Diffusion Transformers はコメントを受け付けていません

CLIP-EBC: CLIP Can Count Accurately through Enhanced Blockwise Classification

要約

Clip-EBCを提案します。Clip-EBCは、正確な群衆密度の推定のための最初の完全クリップベースのモデルです。
CLIPモデルは、ゼロショット画像分類などの認識タスクに対処することで顕著な成功を示していますが、カウントの可能性は、カウントなどの回帰問題を認識タスクに変換することに固有の課題により、ほとんど説明されていません。
この作業では、画像から群衆のサイズを推定するタスクに特に焦点を当てて、Clipのカウント能力を調査および強化します。
既存の分類ベースのクラウドカウントフレームワークには、カウント値の境界の実質ビンへの量子化や分類エラーに唯一の焦点を含む大きな制限があります。
これらの慣行は、共有境界の近くでラベルのあいまいさをもたらし、カウント値の不正確な予測をもたらします。
したがって、これらのフレームワーク内にクリップを直接適用すると、最適ではないパフォーマンスが得られる場合があります。
これらの課題に対処するために、最初に強化されたブロックワイズ分類(EBC)フレームワークを提案します。
以前の方法とは異なり、EBCは整数値ビンを利用して、ビンの境界近くの曖昧さを効果的に減らします。
さらに、密度マップに基づく回帰損失を組み込んで、カウント値の予測を改善します。
バックボーンに依存しないEBCフレームワーク内で、Clip-EBCを導入して、このタスクのClipの認識機能を完全に活用します。
広範な実験は、EBCの有効性とClip-EBCの競争力を示しています。
具体的には、当社のEBCフレームワークは、UCF-QNRFデータセットで既存の分類ベースの方法を最大44.5%改善でき、Clip-EBCはNWPU-Crowdテストセットで最先端のパフォーマンスを達成し、58.2のMAEとAN RMSEが268.5のAN RMSEを達成し、8.6%および13.3%の習慣を表しています。
コードと重みはhttps://github.com/yiming-m/clip-ebcで入手できます。

要約(オリジナル)

We propose CLIP-EBC, the first fully CLIP-based model for accurate crowd density estimation. While the CLIP model has demonstrated remarkable success in addressing recognition tasks such as zero-shot image classification, its potential for counting has been largely unexplored due to the inherent challenges in transforming a regression problem, such as counting, into a recognition task. In this work, we investigate and enhance CLIP’s ability to count, focusing specifically on the task of estimating crowd sizes from images. Existing classification-based crowd-counting frameworks have significant limitations, including the quantization of count values into bordering real-valued bins and the sole focus on classification errors. These practices result in label ambiguity near the shared borders and inaccurate prediction of count values. Hence, directly applying CLIP within these frameworks may yield suboptimal performance. To address these challenges, we first propose the Enhanced Blockwise Classification (EBC) framework. Unlike previous methods, EBC utilizes integer-valued bins, effectively reducing ambiguity near bin boundaries. Additionally, it incorporates a regression loss based on density maps to improve the prediction of count values. Within our backbone-agnostic EBC framework, we then introduce CLIP-EBC to fully leverage CLIP’s recognition capabilities for this task. Extensive experiments demonstrate the effectiveness of EBC and the competitive performance of CLIP-EBC. Specifically, our EBC framework can improve existing classification-based methods by up to 44.5% on the UCF-QNRF dataset, and CLIP-EBC achieves state-of-the-art performance on the NWPU-Crowd test set, with an MAE of 58.2 and an RMSE of 268.5, representing improvements of 8.6% and 13.3% over the previous best method, STEERER. The code and weights are available at https://github.com/Yiming-M/CLIP-EBC.

arxiv情報

著者 Yiming Ma,Victor Sanchez,Tanaya Guha
発行日 2025-03-25 16:47:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CLIP-EBC: CLIP Can Count Accurately through Enhanced Blockwise Classification はコメントを受け付けていません