Going Beyond Feature Similarity: Effective Dataset distillation based on Class-aware Conditional Mutual Information

要約

Dataset Distillation(DD)は、完全な実際のデータセットのパフォーマンスと同様のパフォーマンスを持つ小さな合成データセットを作成することにより、大きなデータセットで深いニューラルネットワークをトレーニングするのに必要な時間とメモリの消費を最小限に抑えることを目的としています。
ただし、現在のデータセット蒸留方法は、多くの場合、ネットワークが学習するのが過度に困難な合成データセットをもたらします。
)。
この作業では、条件付き相互情報(CMI)を導入して、データセットのクラス認識の複雑さを評価し、CMIを最小限に抑えて新しい方法を提案します。
具体的には、事前に訓練されたネットワークの特徴空間からの経験的CMIを同時に最小化することにより、合成データセットのクラス認識の複雑さを制約しながら、蒸留損失を最小限に抑えます。
徹底的な一連の実験を実施すると、この方法が既存のDDメソッドの一般的な正規化方法として機能し、パフォーマンスとトレーニング効率を向上させることができることを示します。

要約(オリジナル)

Dataset distillation (DD) aims to minimize the time and memory consumption needed for training deep neural networks on large datasets, by creating a smaller synthetic dataset that has similar performance to that of the full real dataset. However, current dataset distillation methods often result in synthetic datasets that are excessively difficult for networks to learn from, due to the compression of a substantial amount of information from the original data through metrics measuring feature similarity, e,g., distribution matching (DM). In this work, we introduce conditional mutual information (CMI) to assess the class-aware complexity of a dataset and propose a novel method by minimizing CMI. Specifically, we minimize the distillation loss while constraining the class-aware complexity of the synthetic dataset by minimizing its empirical CMI from the feature space of pre-trained networks, simultaneously. Conducting on a thorough set of experiments, we show that our method can serve as a general regularization method to existing DD methods and improve the performance and training efficiency.

arxiv情報

著者 Xinhao Zhong,Bin Chen,Hao Fang,Xulin Gu,Shu-Tao Xia,En-Hui Yang
発行日 2025-02-21 13:50:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Going Beyond Feature Similarity: Effective Dataset distillation based on Class-aware Conditional Mutual Information はコメントを受け付けていません

Aligning Task- and Reconstruction-Oriented Communications for Edge Intelligence

要約

既存の通信システムは、レシーバー側の情報を再構築することを目的としており、再構築指向の通信として知られています。
このアプローチは、自律運転やセマンティックセグメンテーションなどの最新のAI主導のアプリケーションのリアルタイムでタスク固有の要求を満たす際に不足していることがよくあります。
新しい設計の原則として、タスク指向の通信が開発されました。
ただし、通常、エンコーダー、デコーダー、および変更された推論ニューラルネットワークの共同最適化が必要であり、その結果、広範なクロスシステムの再設計と互換性の問題が発生します。
このペーパーでは、エッジインテリジェンスのための再構築指向のタスク指向のコミュニケーションを調整する新しいコミュニケーションフレームワークを提案します。
アイデアは、情報再シェイパーによって元のデータの構造を維持しながら、タスク関連の損失関数を最小限に抑えてデータ送信を最適化するために、情報ボトルネック(IB)理論を拡張することです。
このようなアプローチは、タスク指向の通信を再構築指向の通信と統合します。ここでは、高次元ニューラルネットワーク機能における相互情報の操作性を処理するように変動アプローチが設計されています。
また、既存のデジタルインフラストラクチャ内のAIテクノロジーの展開を可能にする、古典的な変調技術と互換性のあるジョイントソースチャネルコーディング(JSCC)変調スキームを導入します。
提案されたフレームワークは、エッジベースの自律運転シナリオで特に効果的です。
自動車学習の行動(CARLA)シミュレーターは、提案されたフレームワークが、タスク実行の有効性を損なうことなく、JPEG、JPEG2000、BPGなどの既存の方法と比較して、サービスあたりのビットを99.19%削減することを示しています。

要約(オリジナル)

Existing communication systems aim to reconstruct the information at the receiver side, and are known as reconstruction-oriented communications. This approach often falls short in meeting the real-time, task-specific demands of modern AI-driven applications such as autonomous driving and semantic segmentation. As a new design principle, task-oriented communications have been developed. However, it typically requires joint optimization of encoder, decoder, and modified inference neural networks, resulting in extensive cross-system redesigns and compatibility issues. This paper proposes a novel communication framework that aligns reconstruction-oriented and task-oriented communications for edge intelligence. The idea is to extend the Information Bottleneck (IB) theory to optimize data transmission by minimizing task-relevant loss function, while maintaining the structure of the original data by an information reshaper. Such an approach integrates task-oriented communications with reconstruction-oriented communications, where a variational approach is designed to handle the intractability of mutual information in high-dimensional neural network features. We also introduce a joint source-channel coding (JSCC) modulation scheme compatible with classical modulation techniques, enabling the deployment of AI technologies within existing digital infrastructures. The proposed framework is particularly effective in edge-based autonomous driving scenarios. Our evaluation in the Car Learning to Act (CARLA) simulator demonstrates that the proposed framework significantly reduces bits per service by 99.19% compared to existing methods, such as JPEG, JPEG2000, and BPG, without compromising the effectiveness of task execution.

arxiv情報

著者 Yufeng Diao,Yichi Zhang,Changyang She,Philip Guodong Zhao,Emma Liying Li
発行日 2025-02-21 13:55:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IT, eess.IV, math.IT | Aligning Task- and Reconstruction-Oriented Communications for Edge Intelligence はコメントを受け付けていません

CondiQuant: Condition Number Based Low-Bit Quantization for Image Super-Resolution

要約

画像スーパー解像度(SR)の低ビットモデル量子化は、驚くべき圧縮と加速能力で有名な長年のタスクです。
ただし、完全な精度(FP)モデルを超低ビット幅(2〜4ビット)に圧縮する場合、精度の低下は避けられません。
実験的には、量子化の分解は、主にモデルの重みではなく活性化の量子化に起因することを観察します。
数値分析では、重みの条件数は、入力引数の小さな変化に対して出力値がどれだけ変化するかを測定でき、本質的に量子化誤差を反映しています。
したがって、画像の超解像度のための条件数ベースの低ビットトレーニング後の量子化であるコンジュカントを提案します。
具体的には、量子化誤差を重み指標の条件数として定式化します。
表現能力と量子化感度を切り離すことにより、条件数を最小限に抑え、出力を維持するために、効率的な近位勾配降下アルゴリズムを設計します。
包括的な実験により、コンディチョンは、計算オーバーヘッドなしで既存の最先端のトレーニング後の量子化方法を精度で上回り、モデルパラメーターの理論的に最適な圧縮比を獲得することを実証します。
コードとモデルはhttps://github.com/kai-liu001/condiquantでリリースされます。

要約(オリジナル)

Low-bit model quantization for image super-resolution (SR) is a longstanding task that is renowned for its surprising compression and acceleration ability. However, accuracy degradation is inevitable when compressing the full-precision (FP) model to ultra-low bit widths (2~4 bits). Experimentally, we observe that the degradation of quantization is mainly attributed to the quantization of activation instead of model weights. In numerical analysis, the condition number of weights could measure how much the output value can change for a small change in the input argument, inherently reflecting the quantization error. Therefore, we propose CondiQuant, a condition number based low-bit post-training quantization for image super-resolution. Specifically, we formulate the quantization error as the condition number of weight metrics. By decoupling the representation ability and the quantization sensitivity, we design an efficient proximal gradient descent algorithm to iteratively minimize the condition number and maintain the output still. With comprehensive experiments, we demonstrate that CondiQuant outperforms existing state-of-the-art post-training quantization methods in accuracy without computation overhead and gains the theoretically optimal compression ratio in model parameters. Our code and model are released at https://github.com/Kai-Liu001/CondiQuant.

arxiv情報

著者 Kai Liu,Dehui Wang,Zhiteng Li,Zheng Chen,Yong Guo,Wenbo Li,Linghe Kong,Yulun Zhang
発行日 2025-02-21 14:04:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CondiQuant: Condition Number Based Low-Bit Quantization for Image Super-Resolution はコメントを受け付けていません

On Neural BRDFs: A Thorough Comparison of State-of-the-Art Approaches

要約

双方向反射率分布関数(BRDF)は、光と物質の複雑な相互作用をキャプチャするための不可欠なツールです。
最近、いくつかの作品が、既存のパラメトリックモデルを利用してから純粋な神経パラメーター化に至るまで、さまざまな戦略に従って、BRDFモデリングにニューラル法を採用しています。
すべての方法は印象的な結果をもたらしますが、文献にはさまざまなアプローチの包括的な比較が欠けています。
この作業では、定性的および定量的再構成品質の結果や、相互関係と省エネの分析など、いくつかのアプローチの徹底的な評価を提示します。
さらに、既存のアプローチに追加できる2つの拡張機能を提案します。反射率をびまん性と鏡面部に分割する神経BRDFの新しい添加剤の組み合わせ戦略と、構造によって相互関係を正確に保証する入力マッピング、以前のアプローチは保証するだけです。
ソフト制約による。

要約(オリジナル)

The bidirectional reflectance distribution function (BRDF) is an essential tool to capture the complex interaction of light and matter. Recently, several works have employed neural methods for BRDF modeling, following various strategies, ranging from utilizing existing parametric models to purely neural parametrizations. While all methods yield impressive results, a comprehensive comparison of the different approaches is missing in the literature. In this work, we present a thorough evaluation of several approaches, including results for qualitative and quantitative reconstruction quality and an analysis of reciprocity and energy conservation. Moreover, we propose two extensions that can be added to existing approaches: A novel additive combination strategy for neural BRDFs that split the reflectance into a diffuse and a specular part, and an input mapping that ensures reciprocity exactly by construction, while previous approaches only ensure it by soft constraints.

arxiv情報

著者 Florian Hofherr,Bjoern Haefner,Daniel Cremers
発行日 2025-02-21 14:05:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | On Neural BRDFs: A Thorough Comparison of State-of-the-Art Approaches はコメントを受け付けていません

Confidence-Based Annotation Of Brain Tumours In Ultrasound

要約

目的:特にびまん性腫瘍の場合、腫瘍縁に沿ったアレアティックの不確実性の問題に焦点を当てた、超音波における脳腫瘍の離散セグメンテーションに注釈を付けるという課題の調査。
このマージン関連の不確実性を組み込んでいながら、主観性の低下を介して観察者間の分散を最小限に抑え、それによって発注文の認識論的不確実性を低下させるセグメンテーションプロトコルと方法が提案されています。
アプローチ:コンピュータービジョンと放射線理論を使用して設計されたプロトコルに基づいて、注釈のためのまばらな信頼方法が提案されています。
結果:提案された方法を使用した出力アノテーションは、オブザーバー間の対応する専門的な離散注釈の差異と比較されます。
腫瘍縁領域内で線形関係が測定され、ピアソン相関は0.8でした。
ダウンストリームアプリケーションが検討され、信頼注釈を使用したトレーニングをソフトラベルとして使用して、ハードラベルとして最高の個別の注釈を使用して比較しました。
すべての評価の折り目で、Brierスコアはソフトラベル訓練ネットワークで優れていました。
結論:Bモード超音波における脳腫瘍の個別の注釈の無効性を実証するための正式なフレームワークが構築されました。
その後、まばらな信頼ベースの注釈の方法が提案され、評価されます。
キーワード:脳腫瘍、超音波、自信、注釈。

要約(オリジナル)

Purpose: An investigation of the challenge of annotating discrete segmentations of brain tumours in ultrasound, with a focus on the issue of aleatoric uncertainty along the tumour margin, particularly for diffuse tumours. A segmentation protocol and method is proposed that incorporates this margin-related uncertainty while minimising the interobserver variance through reduced subjectivity, thereby diminishing annotator epistemic uncertainty. Approach: A sparse confidence method for annotation is proposed, based on a protocol designed using computer vision and radiology theory. Results: Output annotations using the proposed method are compared with the corresponding professional discrete annotation variance between the observers. A linear relationship was measured within the tumour margin region, with a Pearson correlation of 0.8. The downstream application was explored, comparing training using confidence annotations as soft labels with using the best discrete annotations as hard labels. In all evaluation folds, the Brier score was superior for the soft-label trained network. Conclusion: A formal framework was constructed to demonstrate the infeasibility of discrete annotation of brain tumours in B-mode ultrasound. Subsequently, a method for sparse confidence-based annotation is proposed and evaluated. Keywords: Brain tumours, ultrasound, confidence, annotation.

arxiv情報

著者 Alistair Weld,Luke Dixon,Alfie Roddan,Giulio Anichini,Sophie Camp,Stamatia Giannarou
発行日 2025-02-21 14:16:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Confidence-Based Annotation Of Brain Tumours In Ultrasound はコメントを受け付けていません

Q-PETR: Quant-aware Position Embedding Transformation for Multi-View 3D Object Detection

要約

PETRベースの方法は、3D認識でベンチマークを支配しており、近代的な自律駆動システムの重要な要素になりつつあります。
ただし、INT8推論が必要な場合、それらの量子化パフォーマンスは、MAPで58.2%、NDSで36.9%の分解が必要になると大幅に低下します。
この問題に対処するために、Q-PETRと呼ばれるマルチビュー3Dオブジェクト検出のために変換を埋め込む量子化を認識した位置を提案します。
Q-PETRは、PetRの元のパフォーマンスを維持しながら、量子化フレンドリーで展開に優しいアーキテクチャを提供します。
PETRシリーズメソッドのINT8とFP32の推論の精度ギャップを大幅に絞り込みます。
ベルとホイッスルがなければ、私たちのアプローチはマップを減らし、標準のトレーニング後の標準8ビットあたりの標準8ビットで1%以内にNDSが低下します。
さらに、私たちの方法は、浮動小数点精度の観点から元のPETRのパフォーマンスを超えています。
さまざまなPETRシリーズモデルにわたる広範な実験は、その広範な一般化を示しています。

要約(オリジナル)

PETR-based methods have dominated benchmarks in 3D perception and are increasingly becoming a key component in modern autonomous driving systems. However, their quantization performance significantly degrades when INT8 inference is required, with a degradation of 58.2% in mAP and 36.9% in NDS on the NuScenes dataset. To address this issue, we propose a quantization-aware position embedding transformation for multi-view 3D object detection, termed Q-PETR. Q-PETR offers a quantizationfriendly and deployment-friendly architecture while preserving the original performance of PETR. It substantially narrows the accuracy gap between INT8 and FP32 inference for PETR-series methods. Without bells and whistles, our approach reduces the mAP and NDS drop to within 1% under standard 8-bit per-tensor post-training quantization. Furthermore, our method exceeds the performance of the original PETR in terms of floating-point precision. Extensive experiments across a variety of PETR-series models demonstrate its broad generalization.

arxiv情報

著者 Jiangyong Yu,Changyong Shu,Dawei Yang,Zichen Yu,Xing Hu,Yan Chen
発行日 2025-02-21 14:26:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Q-PETR: Quant-aware Position Embedding Transformation for Multi-View 3D Object Detection はコメントを受け付けていません

UniDB: A Unified Diffusion Bridge Framework via Stochastic Optimal Control

要約

拡散ブリッジモデルの最近の進歩は、Doobの$ H $ transformを活用して分布間の固定エンドポイントを確立し、画像翻訳と修復タスクで有望な結果を示しています。
ただし、これらのアプローチは頻繁にぼやけたまたは過度に滑らかにされた画像の詳細を生成し、これらの欠点を説明するための包括的な理論的基盤を欠いています。
これらの制限に対処するために、確率的最適制御(SOC)に基づいた拡散ブリッジの統一されたフレームワークであるUNIDBを提案します。
UNIDBは、SOCベースの最適化を介して問題を定式化し、最適なコントローラーの閉じた形式ソリューションを導き出し、それにより既存の拡散ブリッジモデルを統一および一般化します。
Doobの$ H $ -TRANSFORMを使用する既存の拡散橋は、SOCコスト関数の端子ペナルティ係数が無限になる傾向がある場合に出現するフレームワークの特別なケースを構成することを実証します。
調整可能な端子ペナルティ係数を組み込むことにより、UNIDBは制御コストとターミナルペナルティの間の最適なバランスを実現し、詳細な保存と出力品質を大幅に改善します。
特に、UNIDBは既存の拡散ブリッジモデルとシームレスに統合されており、最小限のコード変更のみが必要です。
多様な画像修復タスク全体の広範な実験は、提案されたフレームワークの優位性と適応性を検証します。
私たちのコードは、https://github.com/unidb-soc/unidb/で入手できます。

要約(オリジナル)

Recent advances in diffusion bridge models leverage Doob’s $h$-transform to establish fixed endpoints between distributions, demonstrating promising results in image translation and restoration tasks. However, these approaches frequently produce blurred or excessively smoothed image details and lack a comprehensive theoretical foundation to explain these shortcomings. To address these limitations, we propose UniDB, a unified framework for diffusion bridges based on Stochastic Optimal Control (SOC). UniDB formulates the problem through an SOC-based optimization and derives a closed-form solution for the optimal controller, thereby unifying and generalizing existing diffusion bridge models. We demonstrate that existing diffusion bridges employing Doob’s $h$-transform constitute a special case of our framework, emerging when the terminal penalty coefficient in the SOC cost function tends to infinity. By incorporating a tunable terminal penalty coefficient, UniDB achieves an optimal balance between control costs and terminal penalties, substantially improving detail preservation and output quality. Notably, UniDB seamlessly integrates with existing diffusion bridge models, requiring only minimal code modifications. Extensive experiments across diverse image restoration tasks validate the superiority and adaptability of the proposed framework. Our code is available at https://github.com/UniDB-SOC/UniDB/.

arxiv情報

著者 Kaizhen Zhu,Mokai Pan,Yuexin Ma,Yanwei Fu,Jingyi Yu,Jingya Wang,Ye Shi
発行日 2025-02-21 15:01:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.SY, eess.SY | UniDB: A Unified Diffusion Bridge Framework via Stochastic Optimal Control はコメントを受け付けていません

Depth-aware Fusion Method based on Image and 4D Radar Spectrum for 3D Object Detection

要約

安全性と信頼性は、自律運転を一般に受け入れるために重要です。
正確で信頼できる環境認識を確保するために、インテリジェントな車両は、さまざまな環境で正確さと堅牢性を示さなければなりません。
高い浸透能力で知られるミリ波レーダーは、雨、雪、霧などの有害な気象条件で効果的に動作する可能性があります。
従来の3Dミリ波レーダーは、オブジェクトの範囲、ドップラー、および方位角情報のみを提供できます。
4Dミリ波レーダーの最近の出現により標高解像度が追加されましたが、レーダーポイントクラウドは、一定の誤報速度(CFAR)操作のためにまばらなままです。
対照的に、カメラは豊富なセマンティックの詳細を提供しますが、照明や気象条件に敏感です。
したがって、このペーパーでは、これら2つの非常に補完的で費用対効果の高いセンサー、4Dミリ波レーダーとカメラを活用しています。
4Dレーダースペクトルを深さにアウェアカメラの画像と統合し、注意メカニズムを使用することにより、鳥瞰図(BEV)の視点でテクスチャリッチ画像と深さが豊富なレーダーデータを融合し、3Dオブジェクトの検出を強化します。
さらに、GANベースのネットワークを使用して、深度センサーがない場合にレーダースペクトルから深度画像を生成し、検出精度をさらに向上させることを提案します。

要約(オリジナル)

Safety and reliability are crucial for the public acceptance of autonomous driving. To ensure accurate and reliable environmental perception, intelligent vehicles must exhibit accuracy and robustness in various environments. Millimeter-wave radar, known for its high penetration capability, can operate effectively in adverse weather conditions such as rain, snow, and fog. Traditional 3D millimeter-wave radars can only provide range, Doppler, and azimuth information for objects. Although the recent emergence of 4D millimeter-wave radars has added elevation resolution, the radar point clouds remain sparse due to Constant False Alarm Rate (CFAR) operations. In contrast, cameras offer rich semantic details but are sensitive to lighting and weather conditions. Hence, this paper leverages these two highly complementary and cost-effective sensors, 4D millimeter-wave radar and camera. By integrating 4D radar spectra with depth-aware camera images and employing attention mechanisms, we fuse texture-rich images with depth-rich radar data in the Bird’s Eye View (BEV) perspective, enhancing 3D object detection. Additionally, we propose using GAN-based networks to generate depth images from radar spectra in the absence of depth sensors, further improving detection accuracy.

arxiv情報

著者 Yue Sun,Yeqiang Qian,Chunxiang Wang,Ming Yang
発行日 2025-02-21 15:14:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Depth-aware Fusion Method based on Image and 4D Radar Spectrum for 3D Object Detection はコメントを受け付けていません

Estimating Vehicle Speed on Roadways Using RNNs and Transformers: A Video-based Approach

要約

このプロジェクトでは、高度な機械学習モデル、特に長期メモリ(LSTM)、ゲート再発ユニット(GRU)、および変圧器の適用を、ビデオデータを使用した車両速度推定のタスクに探索します。
レーダーや手動システムなどの従来の速度推定方法は、多くの場合、高コスト、限られたカバレッジ、および潜在的な混乱によって制約されます。
対照的に、既存の監視インフラストラクチャと最先端のニューラルネットワークアーキテクチャを活用すると、邪魔にならないスケーラブルなソリューションが提示されます。
私たちのアプローチはLSTMとGRUを利用してビデオフレームの時間的シーケンス内で長期的な依存関係を効果的に管理しますが、変圧器は自己関節メカニズムを活用するために使用され、シーケンス全体の処理を並行して処理し、最も有益なセグメントに焦点を合わせます。
データ。
この研究は、LSTMとGRUの両方が、高度なゲーティングメカニズムのために基本的な再発性ニューラルネットワーク(RNN)を上回ることを示しています。
さらに、入力データのシーケンス長を増やすと、モデルの精度が一貫して改善され、動的環境でのコンテキスト情報の重要性が強調されます。
特に、変圧器は、さまざまなシーケンスの長さと複雑さにわたって並外れた適応性と堅牢性を示しているため、さまざまな交通条件でのリアルタイムアプリケーションに非常に適しています。
調査結果は、これらの洗練されたニューラルネットワークモデルを統合することで、自動速度検出システムの精度と信頼性を大幅に向上させ、交通管理と交通安全に革命をもたらすことを約束することを示唆しています。

要約(オリジナル)

This project explores the application of advanced machine learning models, specifically Long Short-Term Memory (LSTM), Gated Recurrent Units (GRU), and Transformers, to the task of vehicle speed estimation using video data. Traditional methods of speed estimation, such as radar and manual systems, are often constrained by high costs, limited coverage, and potential disruptions. In contrast, leveraging existing surveillance infrastructure and cutting-edge neural network architectures presents a non-intrusive, scalable solution. Our approach utilizes LSTM and GRU to effectively manage long-term dependencies within the temporal sequence of video frames, while Transformers are employed to harness their self-attention mechanisms, enabling the processing of entire sequences in parallel and focusing on the most informative segments of the data. This study demonstrates that both LSTM and GRU outperform basic Recurrent Neural Networks (RNNs) due to their advanced gating mechanisms. Furthermore, increasing the sequence length of input data consistently improves model accuracy, highlighting the importance of contextual information in dynamic environments. Transformers, in particular, show exceptional adaptability and robustness across varied sequence lengths and complexities, making them highly suitable for real-time applications in diverse traffic conditions. The findings suggest that integrating these sophisticated neural network models can significantly enhance the accuracy and reliability of automated speed detection systems, thus promising to revolutionize traffic management and road safety.

arxiv情報

著者 Sai Krishna Reddy Mareddy,Dhanush Upplapati,Dhanush Kumar Antharam
発行日 2025-02-21 15:51:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | Estimating Vehicle Speed on Roadways Using RNNs and Transformers: A Video-based Approach はコメントを受け付けていません

HumanGif: Single-View Human Diffusion with Generative Prior

要約

以前の3Dヒトの作成方法は、スパースビュー画像または単眼ビデオからの視界と一時的に整合した結果を合成することに大きな進歩を遂げました。
ただし、シングルビュー入力設定では限られた情報が利用可能であるため、単一の画像から永続的に現実的で、視界に合わせて、一時的に一貫性のある人間のアバターを作成することは困難なままです。
2Dキャラクターアニメーションの成功に動機付けられ、生成事前のシングルビューヒト拡散モデルであるHumangifを提案します。
具体的には、シングルビューベースの3D人間の新規ビューを策定し、合成をシングル条件付けされたヒト拡散プロセスとしてポーズ合成します。
細かく一貫した新規ビューとポーズ合成を確保するために、HumangifにヒトNERFモジュールを導入して、入力画像から空間的に整列した機能を学習し、相対的なカメラと人間のポーズ変換を暗黙的にキャプチャします。
さらに、最適化中に画像レベルの損失を導入して、拡散モデルの潜在スペースと画像スペースのギャップを埋めることができます。
RenderPeopleおよびDNAレンダリングデータセットに関する広範な実験は、Humangifが新しいビューとポーズ統合の一般化を改善し、最高の知覚パフォーマンスを達成することを示しています。

要約(オリジナル)

Previous 3D human creation methods have made significant progress in synthesizing view-consistent and temporally aligned results from sparse-view images or monocular videos. However, it remains challenging to produce perpetually realistic, view-consistent, and temporally coherent human avatars from a single image, as limited information is available in the single-view input setting. Motivated by the success of 2D character animation, we propose HumanGif, a single-view human diffusion model with generative prior. Specifically, we formulate the single-view-based 3D human novel view and pose synthesis as a single-view-conditioned human diffusion process, utilizing generative priors from foundational diffusion models to complement the missing information. To ensure fine-grained and consistent novel view and pose synthesis, we introduce a Human NeRF module in HumanGif to learn spatially aligned features from the input image, implicitly capturing the relative camera and human pose transformation. Furthermore, we introduce an image-level loss during optimization to bridge the gap between latent and image spaces in diffusion models. Extensive experiments on RenderPeople and DNA-Rendering datasets demonstrate that HumanGif achieves the best perceptual performance, with better generalizability for novel view and pose synthesis.

arxiv情報

著者 Shoukang Hu,Takuya Narihira,Kazumi Fukuda,Ryosuke Sawata,Takashi Shibuya,Yuki Mitsufuji
発行日 2025-02-21 16:03:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HumanGif: Single-View Human Diffusion with Generative Prior はコメントを受け付けていません