Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models

要約

高解像度の拡散モデルを加速するための自動エンコーダーモデルの新しいファミリであるディープ圧縮オートエンコーダー(DC-AE)を提示します。
既存の自動エンコーダーモデルは、中程度の空間圧縮比(8x)で印象的な結果を示していますが、高空間圧縮比(例:64x)の満足のいく再構築精度を維持できません。
2つの重要な手法を導入することにより、この課題に対処します。(1)残留自動エンコード。スペースからチャネルへの変換された特徴に基づいて残差を学習するモデルを設計して、高空間圧縮自動エンコーダーの最適化の難易度を軽減します。
(2)分離された高解像度の適応、高空間圧縮自動エンコーダーの一般化ペナルティを緩和するための効率的な分離3相トレーニング戦略。
これらの設計により、再構築品質を維持しながら、自動エンコーダーの空間圧縮率を最大128に改善します。
DC-AEを潜在的な拡散モデルに適用すると、精度の低下なしで大幅なスピードアップを実現します。
たとえば、Imagenet 512×512では、DC-AEは、広く使用されているSD-VAE-F8オートエンコーダーと比較して、より良いFIDを達成しながら、UVIT-HのH100 GPUで19.1倍の推論スピードアップと17.9xトレーニングスピードアップを提供します。
私たちのコードは、https://github.com/mit-han-lab/efficientvitで入手できます。

要約(オリジナル)

We present Deep Compression Autoencoder (DC-AE), a new family of autoencoder models for accelerating high-resolution diffusion models. Existing autoencoder models have demonstrated impressive results at a moderate spatial compression ratio (e.g., 8x), but fail to maintain satisfactory reconstruction accuracy for high spatial compression ratios (e.g., 64x). We address this challenge by introducing two key techniques: (1) Residual Autoencoding, where we design our models to learn residuals based on the space-to-channel transformed features to alleviate the optimization difficulty of high spatial-compression autoencoders; (2) Decoupled High-Resolution Adaptation, an efficient decoupled three-phases training strategy for mitigating the generalization penalty of high spatial-compression autoencoders. With these designs, we improve the autoencoder’s spatial compression ratio up to 128 while maintaining the reconstruction quality. Applying our DC-AE to latent diffusion models, we achieve significant speedup without accuracy drop. For example, on ImageNet 512×512, our DC-AE provides 19.1x inference speedup and 17.9x training speedup on H100 GPU for UViT-H while achieving a better FID, compared with the widely used SD-VAE-f8 autoencoder. Our code is available at https://github.com/mit-han-lab/efficientvit.

arxiv情報

著者 Junyu Chen,Han Cai,Junsong Chen,Enze Xie,Shang Yang,Haotian Tang,Muyang Li,Yao Lu,Song Han
発行日 2025-04-21 14:48:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | コメントする

‘I Know It When I See It’: Mood Spaces for Connecting and Expressing Visual Concepts

要約

複雑な概念を表現することは、ラベル付けまたは定量化できる場合は簡単ですが、多くのアイデアを定義するのは難しいが、即座に認識可能です。
ムードボードを提案します。ユーザーは、属性の変更の意図された方向を示唆する例で抽象的な概念を伝えます。
1)無関係な特徴を考慮し、2)画像間の接続を見つけて、関連する概念をより近くに導く、基礎となるムードスペースを計算します。
50〜100倍小さいコンパクトな空間に事前に訓練された機能を圧縮/減圧するためのフィブレーション計算を発明します。
主な革新は、模範全体の画像トークンのペアワイズアフィニティ関係を模倣することを学ぶことです。
ムード空間の粗からファインまでの階層構造に焦点を当てるために、アフィニティマトリックスから上部固有ベクトル構造を計算し、固有ベクトル空間の損失を定義します。
結果として得られるムードスペースは、局所的に線形でコンパクトで、オブジェクトの平均化、視覚的類推、ポーズ転送などの画像レベルの操作を、ムードスペースの単純なベクトル操作として実行できます。
私たちの学習は、微調整なしでの計算において効率的であり、数個(2〜20)の例も必要であり、学習には1分もかかりません。

要約(オリジナル)

Expressing complex concepts is easy when they can be labeled or quantified, but many ideas are hard to define yet instantly recognizable. We propose a Mood Board, where users convey abstract concepts with examples that hint at the intended direction of attribute changes. We compute an underlying Mood Space that 1) factors out irrelevant features and 2) finds the connections between images, thus bringing relevant concepts closer. We invent a fibration computation to compress/decompress pre-trained features into/from a compact space, 50-100x smaller. The main innovation is learning to mimic the pairwise affinity relationship of the image tokens across exemplars. To focus on the coarse-to-fine hierarchical structures in the Mood Space, we compute the top eigenvector structure from the affinity matrix and define a loss in the eigenvector space. The resulting Mood Space is locally linear and compact, allowing image-level operations, such as object averaging, visual analogy, and pose transfer, to be performed as a simple vector operation in Mood Space. Our learning is efficient in computation without any fine-tuning, needs only a few (2-20) exemplars, and takes less than a minute to learn.

arxiv情報

著者 Huzheng Yang,Katherine Xu,Michael D. Grossberg,Yutong Bai,Jianbo Shi
発行日 2025-04-21 14:49:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Landmark-Free Preoperative-to-Intraoperative Registration in Laparoscopic Liver Resection

要約

術前の3Dモデルを術中2Dフレームにオーバーレイすることによる肝臓登録は、外科医の空間解剖学を明らかに外科的成功率のために認識するのを助けることができます。
既存の登録方法は、解剖学的ランドマークベースのワークフローに大きく依存しており、2つの主要な制限が発生します。1)あいまいなランドマーク定義は、登録に効率的なマーカーを提供できません。
2)形状変形モデリングにおける術中肝臓の視覚情報の統合が不十分です。
これらの課題に対処するために、このホワイトペーパーでは、効果的な自己監視学習と呼ばれる\ ourmodelと呼ばれるランドマークのない術前から侵入登録フレームワークを提案します。
このフレームワークは、従来の3D-2Dワークフローを3D-3D登録パイプラインに変換し、その後、剛性と非剛性の登録サブタスクに分離されます。
\ ourmodel〜最初に、剛性変換を回復するための堅牢な対応を学習するために、機能定量の変圧器を導入します。
さらに、術前の肝臓表面と整列するように術前モデルを調整するように構造正規化された変形ネットワークが設計されています。
このネットワークは、低ランク変圧器ネットワークのジオメトリ類似性モデリングを通じて構造相関をキャプチャします。
登録パフォーマンスの検証を容易にするために、21人の患者の肝臓切除ビデオを含む生体内登録データセットを構築します。
合成データセットと生体内データセットの両方に関する広範な実験とユーザー研究は、私たちの方法の優位性と潜在的な臨床的適用性を示しています。

要約(オリジナル)

Liver registration by overlaying preoperative 3D models onto intraoperative 2D frames can assist surgeons in perceiving the spatial anatomy of the liver clearly for a higher surgical success rate. Existing registration methods rely heavily on anatomical landmark-based workflows, which encounter two major limitations: 1) ambiguous landmark definitions fail to provide efficient markers for registration; 2) insufficient integration of intraoperative liver visual information in shape deformation modeling. To address these challenges, in this paper, we propose a landmark-free preoperative-to-intraoperative registration framework utilizing effective self-supervised learning, termed \ourmodel. This framework transforms the conventional 3D-2D workflow into a 3D-3D registration pipeline, which is then decoupled into rigid and non-rigid registration subtasks. \ourmodel~first introduces a feature-disentangled transformer to learn robust correspondences for recovering rigid transformations. Further, a structure-regularized deformation network is designed to adjust the preoperative model to align with the intraoperative liver surface. This network captures structural correlations through geometry similarity modeling in a low-rank transformer network. To facilitate the validation of the registration performance, we also construct an in-vivo registration dataset containing liver resection videos of 21 patients, called \emph{P2I-LReg}, which contains 346 keyframes that provide a global view of the liver together with liver mask annotations and calibrated camera intrinsic parameters. Extensive experiments and user studies on both synthetic and in-vivo datasets demonstrate the superiority and potential clinical applicability of our method.

arxiv情報

著者 Jun Zhou,Bingchen Gao,Kai Wang,Jialun Pei,Pheng-Ann Heng,Jing Qin
発行日 2025-04-21 14:55:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | コメントする

Dynamic 3D KAN Convolution with Adaptive Grid Optimization for Hyperspectral Image Classification

要約

深いニューラルネットワークは、高次元データ、地上オブジェクトのまばらな分布、スペクトル冗長性など、ハイパースペクトル画像分類におけるいくつかの課題に直面しています。
このホワイトペーパーでは、3D KAN CONVと適応グリッド更新メカニズムで構成される改善された3Dデンセネットモデルに基づいて、過度のパラメーターを導入して冗長な情報をスキップせずに画像機能を抽出しながら、地面のオブジェクト分布により効率的に適応するために、より効率的に適応するために。
ネットワークエッジに学習可能な単変量Bスプライン関数を導入することにより、特に3次元近傍をベクトルに平らにし、B-SPLINEパラメーター化された非線形活性化関数を適用して、従来の3D畳み込みカーネルの固定線形重みを置き換えることにより、Hypersepertal Datasの複雑なスペクトルの非線形関係を正確に捕捉します。
同時に、動的グリッド調整メカニズムを通じて、入力データの統計的特性に基づいてB-Splinesのグリッドポイント位置を適応的に更新し、スプライン関数の分解能を最適化して、スペクトル特徴の非均一な分布と一致し、高次元データモデリングとパラメーターの効率を効果的に改善します。
この特徴は、従来の畳み込みニューラルネットワークと比較して優れた神経スケーリング法則を示し、小型サンプルおよび高ノイズシナリオの過剰適合リスクを軽減します。
Kanetは、ネットワークの深さや幅を増やすことなく、3Dダイナミックエキスパートの畳み込みシステムを通じてモデル表現機能を強化します。
提案された方法は、IN、UP、およびKSCデータセットの優れたパフォーマンスを示し、主流のハイパースペクトル画像分類アプローチを上回ります。

要約(オリジナル)

Deep neural networks face several challenges in hyperspectral image classification, including high-dimensional data, sparse distribution of ground objects, and spectral redundancy, which often lead to classification overfitting and limited generalization capability. To more efficiently adapt to ground object distributions while extracting image features without introducing excessive parameters and skipping redundant information, this paper proposes KANet based on an improved 3D-DenseNet model, consisting of 3D KAN Conv and an adaptive grid update mechanism. By introducing learnable univariate B-spline functions on network edges, specifically by flattening three-dimensional neighborhoods into vectors and applying B-spline-parameterized nonlinear activation functions to replace the fixed linear weights of traditional 3D convolutional kernels, we precisely capture complex spectral-spatial nonlinear relationships in hyperspectral data. Simultaneously, through a dynamic grid adjustment mechanism, we adaptively update the grid point positions of B-splines based on the statistical characteristics of input data, optimizing the resolution of spline functions to match the non-uniform distribution of spectral features, significantly improving the model’s accuracy in high-dimensional data modeling and parameter efficiency, effectively alleviating the curse of dimensionality. This characteristic demonstrates superior neural scaling laws compared to traditional convolutional neural networks and reduces overfitting risks in small-sample and high-noise scenarios. KANet enhances model representation capability through a 3D dynamic expert convolution system without increasing network depth or width. The proposed method demonstrates superior performance on IN, UP, and KSC datasets, outperforming mainstream hyperspectral image classification approaches.

arxiv情報

著者 Guandong Li,Mengxia Ye
発行日 2025-04-21 14:57:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Acquire and then Adapt: Squeezing out Text-to-Image Model for Image Restoration

要約

最近、事前に訓練されたテキストからイメージ(T2I)モデルが、その強力な生成事前のために、実際の画像修復に広く採用されています。
ただし、画像修復のためにこれらの大規模なモデルを制御するには、通常、トレーニングのための多数の高品質の画像と計り知れない計算リソースが必要です。
この論文では、よく訓練された大型T2Iモデル(つまり、フラックス)が、実際の分布に沿ったさまざまな高品質の画像を作成できることがわかり、上記の問題を軽減するためのトレーニングサンプルの無制限の供給を提供します。
具体的には、画像修復のためのトレーニングデータ構築パイプライン、すなわち、無条件の画像生成、画像選択、劣化した画像シミュレーションを含むFluxGenを提案しました。
スクイーズアンドエクスケーション層を備えた新しい光加重アダプター(Fluxir)は、大きな拡散トランス(DIT)ベースのT2Iモデルを制御するために慎重に設計されているため、合理的な詳細を復元できます。
実験は、提案された方法により、フラックスモデルが現実世界の画像修復タスクに効果的に適応することを可能にし、現在のアプローチと比較してトレーニングコストの約8.5%で、合成および実世界の劣化データセットの両方で優れたスコアと視覚品質を達成することができることを示しています。

要約(オリジナル)

Recently, pre-trained text-to-image (T2I) models have been extensively adopted for real-world image restoration because of their powerful generative prior. However, controlling these large models for image restoration usually requires a large number of high-quality images and immense computational resources for training, which is costly and not privacy-friendly. In this paper, we find that the well-trained large T2I model (i.e., Flux) is able to produce a variety of high-quality images aligned with real-world distributions, offering an unlimited supply of training samples to mitigate the above issue. Specifically, we proposed a training data construction pipeline for image restoration, namely FluxGen, which includes unconditional image generation, image selection, and degraded image simulation. A novel light-weighted adapter (FluxIR) with squeeze-and-excitation layers is also carefully designed to control the large Diffusion Transformer (DiT)-based T2I model so that reasonable details can be restored. Experiments demonstrate that our proposed method enables the Flux model to adapt effectively to real-world image restoration tasks, achieving superior scores and visual quality on both synthetic and real-world degradation datasets – at only about 8.5\% of the training cost compared to current approaches.

arxiv情報

著者 Junyuan Deng,Xinyi Wu,Yongxing Yang,Congchao Zhu,Song Wang,Zhenyao Wu
発行日 2025-04-21 15:05:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

An Efficient Aerial Image Detection with Variable Receptive Fields

要約

無人航空機(UAV)を使用した空中オブジェクトの検出は、10pxのターゲット、密なオクルージョン、厳しい計算上の制約を含む重要な課題に直面しています。
既存の検出器は、剛性の受容フィールドと冗長アーキテクチャによる精度と効率のバランスをとるのに苦労しています。
これらの制限に対処するために、3つの重要なコンポーネントを組み込んだ変圧器ベースの検出器である可変受容フィールドDETR(VRF-DERT)を提案します:1)マルチスケールコンテキスト融合(MSCF)モジュールは、適応的な空間的注意とゲートマルチスケール融合を介して機能を動的に再調整する、2)のムーブリックエクセレーションモデルを介したconvoluted eving eding concontexe
ダイナミックゲーティング、および3)カスケードされたグローバルローカル相互作用を介してオブジェクトを階層的に解き放つオブジェクトを階層的に解き放つゲートマルチスケール融合(GMCF)ボトルネック。
Visdrone2019での実験は、VRF-DETRが51.4 \%MAP \ TextSubscript {50}および31.8 \%Map \ TextSubscript {50:95}を13.5mパラメーターで達成することを示しています。
この作業は、UAVベースの検出タスクのための新しい効率的アクセラシーパレートフロンティアを確立します。

要約(オリジナル)

Aerial object detection using unmanned aerial vehicles (UAVs) faces critical challenges including sub-10px targets, dense occlusions, and stringent computational constraints. Existing detectors struggle to balance accuracy and efficiency due to rigid receptive fields and redundant architectures. To address these limitations, we propose Variable Receptive Field DETR (VRF-DETR), a transformer-based detector incorporating three key components: 1) Multi-Scale Context Fusion (MSCF) module that dynamically recalibrates features through adaptive spatial attention and gated multi-scale fusion, 2) Gated Convolution (GConv) layer enabling parameter-efficient local-context modeling via depthwise separable operations and dynamic gating, and 3) Gated Multi-scale Fusion (GMCF) Bottleneck that hierarchically disentangles occluded objects through cascaded global-local interactions. Experiments on VisDrone2019 demonstrate VRF-DETR achieves 51.4\% mAP\textsubscript{50} and 31.8\% mAP\textsubscript{50:95} with only 13.5M parameters. This work establishes a new efficiency-accuracy Pareto frontier for UAV-based detection tasks.

arxiv情報

著者 Liu Wenbin
発行日 2025-04-21 15:16:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | コメントする

HSANET: A Hybrid Self-Cross Attention Network For Remote Sensing Change Detection

要約

リモートセンシング画像変更検出タスクは、大規模な監視に不可欠な方法です。
階層的畳み込みを使用してマルチスケール機能を抽出するネットワークであるHSANETを提案します。
これには、グローバルおよびクロススケールの情報を学習し、融合するためのハイブリッドの自己触媒と分析メカニズムが組み込まれています。
これにより、HSANETはさまざまなスケールでグローバルコンテキストをキャプチャし、クロススケール機能を統合し、エッジの詳細を改良し、検出パフォーマンスを向上させることができます。
また、モデルコードhttps://github.com/chengxihan/hsanetをオープンソースします。

要約(オリジナル)

The remote sensing image change detection task is an essential method for large-scale monitoring. We propose HSANet, a network that uses hierarchical convolution to extract multi-scale features. It incorporates hybrid self-attention and cross-attention mechanisms to learn and fuse global and cross-scale information. This enables HSANet to capture global context at different scales and integrate cross-scale features, refining edge details and improving detection performance. We will also open-source our model code: https://github.com/ChengxiHAN/HSANet.

arxiv情報

著者 Chengxi Han,Xiaoyu Su,Zhiqiang Wei,Meiqi Hu,Yichu Xu
発行日 2025-04-21 15:23:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

DSPO: Direct Semantic Preference Optimization for Real-World Image Super-Resolution

要約

拡散モデルの最近の進歩により、実際の画像の超​​解像度(Real-ISR)が改善されましたが、既存の方法には人間のフィードバック統合がなく、人間の好みとの不整合の危険性があり、アーティファクト、幻覚、有害なコンテンツ生成につながる可能性があります。
この目的のために、私たちは、人間の好みのアラインメントをReal-ISRに導入する最初の人です。これは、生成された出力と人間の好みのアラインメントを効果的に強化するために、大規模な言語モデルとテキストから画像のタスクで成功裏に適用された手法です。
具体的には、直接選好最適化(DPO)をReal-ISRに導入してアライメントを実現します。DPOは、人間の好みデータセットから直接学習する一般的なアライメント手法として機能します。
それにもかかわらず、高レベルのタスクとは異なり、Real-ISRのピクセルレベルの再構築目標は、DPOの画像レベルの好みと調整することが困難であり、DPOが局所的な異常に過度に敏感であり、発電の品質の低下につながる可能性があります。
この二分法を解決するために、セマンティックガイダンスを組み込むことによりインスタンスレベルの人間の好みを調整するための直接的なセマンティック優先最適化(DSPO)を提案します。これは、2つの戦略を通じてです。
インスタンスレベルの画像。
プラグアンドプレイソリューションとして、DSPOはワンステップとマルチステップの両方のSRフレームワークに非常に効果的であることが証明されています。

要約(オリジナル)

Recent advances in diffusion models have improved Real-World Image Super-Resolution (Real-ISR), but existing methods lack human feedback integration, risking misalignment with human preference and may leading to artifacts, hallucinations and harmful content generation. To this end, we are the first to introduce human preference alignment into Real-ISR, a technique that has been successfully applied in Large Language Models and Text-to-Image tasks to effectively enhance the alignment of generated outputs with human preferences. Specifically, we introduce Direct Preference Optimization (DPO) into Real-ISR to achieve alignment, where DPO serves as a general alignment technique that directly learns from the human preference dataset. Nevertheless, unlike high-level tasks, the pixel-level reconstruction objectives of Real-ISR are difficult to reconcile with the image-level preferences of DPO, which can lead to the DPO being overly sensitive to local anomalies, leading to reduced generation quality. To resolve this dichotomy, we propose Direct Semantic Preference Optimization (DSPO) to align instance-level human preferences by incorporating semantic guidance, which is through two strategies: (a) semantic instance alignment strategy, implementing instance-level alignment to ensure fine-grained perceptual consistency, and (b) user description feedback strategy, mitigating hallucinations through semantic textual feedback on instance-level images. As a plug-and-play solution, DSPO proves highly effective in both one-step and multi-step SR frameworks.

arxiv情報

著者 Miaomiao Cai,Simiao Li,Wei Li,Xudong Huang,Hanting Chen,Jie Hu,Yunhe Wang
発行日 2025-04-21 15:35:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Tree of Attributes Prompt Learning for Vision-Language Models

要約

迅速な学習は、ダウンストリームタスクにビジョン言語モデルを適応させるのに効果的であることが証明されています。
ただし、既存のメソッドは通常、カテゴリ名を取得するためにカテゴリ名のみで学習可能なプロンプトトークンを追加します。これは、カテゴリ名に示されている豊富なコンテキストを完全に活用できません。
この問題に対処するために、属性のTree Prompt Learning(TAP)を提案します。これは、最初に各カテゴリの「概念 – 属性 – 説明」構造を持つ属性のツリーを生成するようにLLMSに指示し、ビジョンとテキストのプロンプトトークンで階層を学習します。
一連の非構造化された説明を使用してカテゴリ名を補強する既存の方法とは異なり、私たちのアプローチは、LLMSのクラス名に関連する構造化された知識グラフを本質的に蒸留します。
さらに、私たちのアプローチでは、対応する視覚属性を明示的に学習するように設計されたテキストとビジョンのプロンプトを導入し、ドメインの専門家として効果的に機能します。
さらに、クラス名に基づいて生成された一般的および多様な説明は、特定の画像に間違っているか、存在しない可能性があります。
この不整合に対処するために、インスタンス固有のテキスト機能を抽出するためのビジョン条件付きプーリングモジュールをさらに紹介します。
広範な実験結果は、私たちのアプローチが、ゼロショットベースからノベルへの一般化、クロスダタセット転送、および11の多様なデータセットにわたる少数の分類に関する最先端の方法よりも優れていることを示しています。
コードはhttps://github.com/hhenryd/tapで入手できます。

要約(オリジナル)

Prompt learning has proven effective in adapting vision language models for downstream tasks. However, existing methods usually append learnable prompt tokens solely with the category names to obtain textual features, which fails to fully leverage the rich context indicated in the category name. To address this issue, we propose the Tree of Attributes Prompt learning (TAP), which first instructs LLMs to generate a tree of attributes with a ‘concept – attribute – description’ structure for each category, and then learn the hierarchy with vision and text prompt tokens. Unlike existing methods that merely augment category names with a set of unstructured descriptions, our approach essentially distills structured knowledge graphs associated with class names from LLMs. Furthermore, our approach introduces text and vision prompts designed to explicitly learn the corresponding visual attributes, effectively serving as domain experts. Additionally, the general and diverse descriptions generated based on the class names may be wrong or absent in the specific given images. To address this misalignment, we further introduce a vision-conditional pooling module to extract instance-specific text features. Extensive experimental results demonstrate that our approach outperforms state-of-the-art methods on the zero-shot base-to-novel generalization, cross-dataset transfer, as well as few-shot classification across 11 diverse datasets. Code is available at https://github.com/HHenryD/TAP.

arxiv情報

著者 Tong Ding,Wanhua Li,Zhongqi Miao,Hanspeter Pfister
発行日 2025-04-21 15:37:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

FaceCraft4D: Animated 3D Facial Avatar Generation from a Single Image

要約

単一の画像から高品質でアニメーション可能な4Dアバターを生成するための新しいフレームワークを提示します。
最近の進歩により、4Dアバターの作成において有望な結果が示されていますが、既存の方法では広範なマルチビューデータが必要か、形状の精度とアイデンティティの一貫性を伴う闘いが必要です。
これらの制限に対処するために、形状、画像、ビデオの事前を活用する包括的なシステムを提案して、フルビューのアニメーション可能なアバターを作成します。
私たちのアプローチは、最初に3D-Ganの反転を通じて初期の粗い形状を取得します。
次に、画像拡散モデルの助けを借りてクロスビューの一貫性を得るために、深さ誘導ワーピング信号を使用してマルチビューテクスチャを強化します。
式アニメーションを処理するために、視点を越えて同期された運転信号を含むビデオを前に組み込みます。
さらに、4D再構成中にデータの矛盾を効果的に処理するための一貫した一貫性のあるトレーニングを導入します。
実験結果は、さまざまな視点や表現にわたって一貫性を維持しながら、以前のアートと比較して優れた品質を達成することを示しています。

要約(オリジナル)

We present a novel framework for generating high-quality, animatable 4D avatar from a single image. While recent advances have shown promising results in 4D avatar creation, existing methods either require extensive multiview data or struggle with shape accuracy and identity consistency. To address these limitations, we propose a comprehensive system that leverages shape, image, and video priors to create full-view, animatable avatars. Our approach first obtains initial coarse shape through 3D-GAN inversion. Then, it enhances multiview textures using depth-guided warping signals for cross-view consistency with the help of the image diffusion model. To handle expression animation, we incorporate a video prior with synchronized driving signals across viewpoints. We further introduce a Consistent-Inconsistent training to effectively handle data inconsistencies during 4D reconstruction. Experimental results demonstrate that our method achieves superior quality compared to the prior art, while maintaining consistency across different viewpoints and expressions.

arxiv情報

著者 Fei Yin,Mallikarjun B R,Chun-Han Yao,Rafał Mantiuk,Varun Jampani
発行日 2025-04-21 15:40:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする