SEGA: Drivable 3D Gaussian Head Avatar from a Single Image

要約

限られた入力からフォトリアリックな3Dヘッドアバターを作成することは、仮想現実、テレプレゼンス、デジタルエンターテイメントのアプリケーションにとってますます重要になっています。
ニューラルレンダリングや3Dガウスのスプラットティングなどの最近の進歩により、高品質のデジタル人間のアバターの作成とアニメーションが可能になりましたが、ほとんどの方法は複数の画像またはマルチビュー入力に依存しており、実際の使用の実用性を制限しています。
この論文では、一般化された以前のモデルと新しい階層的なUVスペースガウススプラッティングフレームワークを組み合わせた、シングルイメージベースの3Dドライブ可能なガウスヘッドアバター作成の新しいアプローチであるSegaを提案します。
SEGAは、大規模な2Dデータセットから派生したプライアーをマルチビュー、マルチエクスペリケーション、およびマルチIDデータから学習した3Dプリエをシームレスに組み合わせて、目に見えないアイデンティティに堅牢な一般化を達成しながら、新しい視点と表現を横切る3Dの一貫性を確保します。
さらに、火炎ベースの構造的事前化を活用し、ダイアルブランチアーキテクチャを使用して動的で静的な顔面コンポーネントを効果的に解き放つためにデュアルブランチアーキテクチャを使用する階層的なUVスペースガウススプラッティングフレームワークを提示します。
動的分岐は式駆動型の微細な詳細をエンコードしますが、静的分岐は式不変の領域に焦点を当て、効率的なパラメーターの推論と事前計算を可能にします。
この設計は、限られた3Dデータのユーティリティを最大化し、アニメーションとレンダリングのリアルタイムパフォーマンスを実現します。
さらに、セガは、生成されたアバターの忠実さとリアリズムをさらに強化するために、人固有の微調整を実行します。
実験は、私たちの方法が、一般化能力、アイデンティティの保存、および表現リアリズムの最先端のアプローチを上回り、実用的なアプリケーションのためにワンショットアバターの作成を促進することを示しています。

要約(オリジナル)

Creating photorealistic 3D head avatars from limited input has become increasingly important for applications in virtual reality, telepresence, and digital entertainment. While recent advances like neural rendering and 3D Gaussian splatting have enabled high-quality digital human avatar creation and animation, most methods rely on multiple images or multi-view inputs, limiting their practicality for real-world use. In this paper, we propose SEGA, a novel approach for Single-imagE-based 3D drivable Gaussian head Avatar creation that combines generalized prior models with a new hierarchical UV-space Gaussian Splatting framework. SEGA seamlessly combines priors derived from large-scale 2D datasets with 3D priors learned from multi-view, multi-expression, and multi-ID data, achieving robust generalization to unseen identities while ensuring 3D consistency across novel viewpoints and expressions. We further present a hierarchical UV-space Gaussian Splatting framework that leverages FLAME-based structural priors and employs a dual-branch architecture to disentangle dynamic and static facial components effectively. The dynamic branch encodes expression-driven fine details, while the static branch focuses on expression-invariant regions, enabling efficient parameter inference and precomputation. This design maximizes the utility of limited 3D data and achieves real-time performance for animation and rendering. Additionally, SEGA performs person-specific fine-tuning to further enhance the fidelity and realism of the generated avatars. Experiments show our method outperforms state-of-the-art approaches in generalization ability, identity preservation, and expression realism, advancing one-shot avatar creation for practical applications.

arxiv情報

著者 Chen Guo,Zhuo Su,Jian Wang,Shuang Li,Xu Chang,Zhaohu Li,Yang Zhao,Guidong Wang,Ruqi Huang
発行日 2025-04-23 12:27:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | SEGA: Drivable 3D Gaussian Head Avatar from a Single Image はコメントを受け付けていません

A Diff-Attention Aware State Space Fusion Model for Remote Sensing Classification

要約

マルチスペクトル(MS)およびパンクロマティック(PAN)画像は同じ土地表面を記述しているため、これらの画像には独自の利点があるだけでなく、多くの同様の情報もあります。
これらの同様の情報とそれぞれの利点を分離するために、融合段階での機能の冗長性を減らします。
このペーパーでは、マルチモーダルリモートセンシング画像分類のためのdif-attention Aware State State Space Fusion Model(DAS2F-Model)を紹介します。
選択状態空間モデルに基づいて、CrossモーダルDiff-Attentionモジュール(CMDAモジュール)は、MSおよびPAN画像の共通の特徴とそれぞれの支配的な特徴を抽出して分離するように設計されています。
この中には、Visual Mamba(SPVM)を保存するスペースは、画像の空間機能を保持し、Visual Mambaの入力を合理的に最適化することでローカル機能をキャプチャします。
融合段階の機能は、これらの大幅に異なる特徴を効果的に統合するために、機能分離と単純な融合操作の闘争後に大きな意味の違いがあることを考慮すると、注意を覚える線形融合モジュール(AALFモジュール)が提案されています。
影響係数を計算することにより、ピクセルごとの線形融合を実行します。
このメカニズムは、機能サイズを変化させずに、特徴を大きなセマンティックな違いと融合させることができます。
経験的評価は、提示された方法が代替アプローチよりも良い結果を達成することを示しています。
関連するコードは、https://github.com/avkskvl/das-f-modelにあります

要約(オリジナル)

Multispectral (MS) and panchromatic (PAN) images describe the same land surface, so these images not only have their own advantages, but also have a lot of similar information. In order to separate these similar information and their respective advantages, reduce the feature redundancy in the fusion stage. This paper introduces a diff-attention aware state space fusion model (DAS2F-Model) for multimodal remote sensing image classification. Based on the selective state space model, a cross-modal diff-attention module (CMDA-Module) is designed to extract and separate the common features and their respective dominant features of MS and PAN images. Among this, space preserving visual mamba (SPVM) retains image spatial features and captures local features by optimizing visual mamba’s input reasonably. Considering that features in the fusion stage will have large semantic differences after feature separation and simple fusion operations struggle to effectively integrate these significantly different features, an attention-aware linear fusion module (AALF-Module) is proposed. It performs pixel-wise linear fusion by calculating influence coefficients. This mechanism can fuse features with large semantic differences while keeping the feature size unchanged. Empirical evaluations indicate that the presented method achieves better results than alternative approaches. The relevant code can be found at:https://github.com/AVKSKVL/DAS-F-Model

arxiv情報

著者 Wenping Ma,Boyou Xue,Mengru Ma,Chuang Chen,Hekai Zhang,Hao Zhu
発行日 2025-04-23 12:34:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Diff-Attention Aware State Space Fusion Model for Remote Sensing Classification はコメントを受け付けていません

Representation Learning via Non-Contrastive Mutual Information

要約

ラベル付けデータは多くの場合、非常に時間がかかり、高価であるため、ほとんどのラベルのないデータが残ります。
SIMCLR(Chen et al。、2020)やByol(Grill et al。、2020)などの自己監視表現学習方法は、非標識画像データから意味のある潜在的表現を学習することに非常に成功しており、その結果、下流タスクのはるかに一般的で転送可能な表現が生じています。
概して、自己監視された方法は2つのタイプに分類されます。1)SIMCLRなどの対照的な方法。
2)Byolなどの非矛盾のある方法。
対照的な方法は一般に、関連するデータポイント間の相互情報を最大化しようとしているため、すべてのデータポイントを他のすべてのデータポイントと比較する必要があり、その結果、大きなバッチサイズがうまく機能する必要があります。
BYOLのような非矛盾した方法は、ペアワイズ比較を行う必要がないため、はるかに低い分散を持っていますが、一定のベクトルに崩壊する可能性があるため、実装するのははるかに難しいです。
この論文では、両方のタイプの強さを組み合わせた自己監視の目的を開発することを目指しています。
スペクトルコントラスト損失と呼ばれる特定の対照的な方法から始めます(Haochen et al。、2021; Lu et al。、2024)、より一般的な非矛盾のある形態に変換します。
これにより、ペアワイズの比較が削除され、その結果、差異が低くなりますが、崩壊を防ぐコントラスト方法の相互情報の定式化を維持します。
私たちは、私たちの新しい目的を相互情報を非矛盾(MINC)損失と呼びます。
Imagenetで画像表現を学習することでMINCをテストし(SIMCLRとBYOLに似ています)、スペクトルのコントラスト損失ベースラインを一貫して改善することを示します。

要約(オリジナル)

Labeling data is often very time consuming and expensive, leaving us with a majority of unlabeled data. Self-supervised representation learning methods such as SimCLR (Chen et al., 2020) or BYOL (Grill et al., 2020) have been very successful at learning meaningful latent representations from unlabeled image data, resulting in much more general and transferable representations for downstream tasks. Broadly, self-supervised methods fall into two types: 1) Contrastive methods, such as SimCLR; and 2) Non-Contrastive methods, such as BYOL. Contrastive methods are generally trying to maximize mutual information between related data points, so they need to compare every data point to every other data point, resulting in high variance, and thus requiring large batch sizes to work well. Non-contrastive methods like BYOL have much lower variance as they do not need to make pairwise comparisons, but are much trickier to implement as they have the possibility of collapsing to a constant vector. In this paper, we aim to develop a self-supervised objective that combines the strength of both types. We start with a particular contrastive method called the Spectral Contrastive Loss (HaoChen et al., 2021; Lu et al., 2024), and we convert it into a more general non-contrastive form; this removes the pairwise comparisons resulting in lower variance, but keeps the mutual information formulation of the contrastive method preventing collapse. We call our new objective the Mutual Information Non-Contrastive (MINC) loss. We test MINC by learning image representations on ImageNet (similar to SimCLR and BYOL) and show that it consistently improves upon the Spectral Contrastive loss baseline.

arxiv情報

著者 Zhaohan Daniel Guo,Bernardo Avila Pires,Khimya Khetarpal,Dale Schuurmans,Bo Dai
発行日 2025-04-23 12:35:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, I.2.10, stat.ML | Representation Learning via Non-Contrastive Mutual Information はコメントを受け付けていません

SemanticSugarBeets: A Multi-Task Framework and Dataset for Inspecting Harvest and Storage Characteristics of Sugar Beets

要約

シュガービートは処理前に保管されていますが、接着土壌や過剰な植生に存在する微生物などの要因により砂糖を失います。
自動化された目視検査は、品質保証を支援することを約束し、それにより砂糖生産の処理チェーン全体で効率を高めます。
この作業では、単眼RGB画像の収穫後および貯蔵後のシュガービートの検出、セマンティックセグメンテーション、および質量推定のための新しい高品質の注釈付きデータセットと2段階の方法を提示します。
私たちは、砂糖ビートの検出と、損傷、腐敗、土壌の接着、過剰植生に関するそれらのきめの細かいセマンティックセグメンテーションのために、広範なアブレーション実験を実施します。
これらのタスクでは、複数の画像サイズ、モデルアーキテクチャ、エンコーダー、および環境条件の影響を評価します。
私たちの実験は、砂糖ビート検出の場合は98.8のMAP50-95と、最高のパフォーマンスのセグメンテーションモデルでは64.0のMIOUを示しています。

要約(オリジナル)

While sugar beets are stored prior to processing, they lose sugar due to factors such as microorganisms present in adherent soil and excess vegetation. Their automated visual inspection promises to aide in quality assurance and thereby increase efficiency throughout the processing chain of sugar production. In this work, we present a novel high-quality annotated dataset and two-stage method for the detection, semantic segmentation and mass estimation of post-harvest and post-storage sugar beets in monocular RGB images. We conduct extensive ablation experiments for the detection of sugar beets and their fine-grained semantic segmentation regarding damages, rot, soil adhesion and excess vegetation. For these tasks, we evaluate multiple image sizes, model architectures and encoders, as well as the influence of environmental conditions. Our experiments show an mAP50-95 of 98.8 for sugar-beet detection and an mIoU of 64.0 for the best-performing segmentation model.

arxiv情報

著者 Gerardus Croonen,Andreas Trondl,Julia Simon,Daniel Steininger
発行日 2025-04-23 13:14:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | SemanticSugarBeets: A Multi-Task Framework and Dataset for Inspecting Harvest and Storage Characteristics of Sugar Beets はコメントを受け付けていません

Fast Adversarial Training with Weak-to-Strong Spatial-Temporal Consistency in the Frequency Domain on Videos

要約

敵対的な訓練(AT)は、MIN-MAX最適化アプローチを介して敵対的な堅牢性を大幅に高めることが示されています。
ただし、ビデオ認識タスクにおけるその有効性は、2つの主要な課題によって妨げられています。
第一に、ビデオモデルのための速い敵対的なトレーニングはほとんど未開拓のままであり、その実用的なアプリケーションを激しく妨げます。
具体的には、ほとんどのビデオ敵対的なトレーニング方法は、長いトレーニング時間と高い費用を備えた計算的にコストがかかります。
第二に、既存の方法は、きれいな精度と敵対的な堅牢性とのトレードオフと闘っています。
これらの課題に対処するために、ビデオデータのための最初の高速敵対的トレーニング方法である弱点から強さの一貫性(VFAT-WS)を備えたビデオの高速敵対的トレーニングを導入します。
具体的には、VFAT-WSには、次の重要な設計が組み込まれています。まず、簡単でありながら効果的な時間周波数増加(TF-8月)とその空間的に強化されたフォームSTF-8月を統合し、トレーニング効率と堅牢性を高めるための単一ステップPGD攻撃を統合します。
第二に、それは、よりシンプルなTF-8月とより複雑なSTF-8月をシームレスに統合する、弱くて強力な空間的一貫性の正則化を考案します。
一貫性の正則化を活用すると、学習プロセスを単純なものから複雑な増強に導きます。
どちらも協力して、きれいな精度と堅牢性の間のより良いトレードオフを実現します。
CNNとトランスベースのモデルの両方を使用したUCF-101およびHMDB-51の広範な実験は、VFAT-WSが敵対的な堅牢性と腐敗の堅牢性を大幅に改善し、トレーニングをほぼ490%加速することを示しています。

要約(オリジナル)

Adversarial Training (AT) has been shown to significantly enhance adversarial robustness via a min-max optimization approach. However, its effectiveness in video recognition tasks is hampered by two main challenges. First, fast adversarial training for video models remains largely unexplored, which severely impedes its practical applications. Specifically, most video adversarial training methods are computationally costly, with long training times and high expenses. Second, existing methods struggle with the trade-off between clean accuracy and adversarial robustness. To address these challenges, we introduce Video Fast Adversarial Training with Weak-to-Strong consistency (VFAT-WS), the first fast adversarial training method for video data. Specifically, VFAT-WS incorporates the following key designs: First, it integrates a straightforward yet effective temporal frequency augmentation (TF-AUG), and its spatial-temporal enhanced form STF-AUG, along with a single-step PGD attack to boost training efficiency and robustness. Second, it devises a weak-to-strong spatial-temporal consistency regularization, which seamlessly integrates the simpler TF-AUG and the more complex STF-AUG. Leveraging the consistency regularization, it steers the learning process from simple to complex augmentations. Both of them work together to achieve a better trade-off between clean accuracy and robustness. Extensive experiments on UCF-101 and HMDB-51 with both CNN and Transformer-based models demonstrate that VFAT-WS achieves great improvements in adversarial robustness and corruption robustness, while accelerating training by nearly 490%.

arxiv情報

著者 Songping Wang,Hanqing Liu,Yueming Lyu,Xiantao Hu,Ziwen He,Wei Wang,Caifeng Shan,Liang Wang
発行日 2025-04-23 13:22:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Fast Adversarial Training with Weak-to-Strong Spatial-Temporal Consistency in the Frequency Domain on Videos はコメントを受け付けていません

Exploring Adversarial Transferability between Kolmogorov-arnold Networks

要約

Kolmogorov-Arnold Networks(KANS)は、変革的モデルのパラダイムとして浮上しており、さまざまな分野に大きな影響を与えています。
ただし、特に異なるKanの建築全体で、それらの敵対的な堅牢性は未定のままです。
この重要な安全性の問題を調査するために、分析を実施し、KANの特定の基礎機能に過剰適合しているため、異なるKANの間で敵対的な移転性が低いことがわかります。
この課題に取り組むために、Kansの最初の転送攻撃方法であるAdvkanを提案します。
ADVKANは2つの重要なコンポーネントを統合します。1)ブレークスルーディフェンスサロゲートモデル(BDSM)。これは、カンズの特定の構造に過剰適合を緩和するためのブレークスルー防御トレーニング戦略を採用しています。
2)階層レベルの敵対的勾配間の十分な相互作用を促進するグローバルローカル相互作用(GLI)技術、Kansの損失表面をさらに滑らかにする。
どちらも協力して、異なるKAN間の転送攻撃の強度を高めます。
さまざまなKANおよびデータセットでの広範な実験結果は、ADVKANの有効性を示しています。これは、特に優れた攻撃能力を備えており、Kansの脆弱性を深く明らかにします。
コードは受け入れられるとリリースされます。

要約(オリジナル)

Kolmogorov-Arnold Networks (KANs) have emerged as a transformative model paradigm, significantly impacting various fields. However, their adversarial robustness remains less underexplored, especially across different KAN architectures. To explore this critical safety issue, we conduct an analysis and find that due to overfitting to the specific basis functions of KANs, they possess poor adversarial transferability among different KANs. To tackle this challenge, we propose AdvKAN, the first transfer attack method for KANs. AdvKAN integrates two key components: 1) a Breakthrough-Defense Surrogate Model (BDSM), which employs a breakthrough-defense training strategy to mitigate overfitting to the specific structures of KANs. 2) a Global-Local Interaction (GLI) technique, which promotes sufficient interaction between adversarial gradients of hierarchical levels, further smoothing out loss surfaces of KANs. Both of them work together to enhance the strength of transfer attack among different KANs. Extensive experimental results on various KANs and datasets demonstrate the effectiveness of AdvKAN, which possesses notably superior attack capabilities and deeply reveals the vulnerabilities of KANs. Code will be released upon acceptance.

arxiv情報

著者 Songping Wang,Xinquan Yue,Yueming Lyu,Caifeng Shan
発行日 2025-04-23 13:22:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Exploring Adversarial Transferability between Kolmogorov-arnold Networks はコメントを受け付けていません

Anti-Aesthetics: Protecting Facial Privacy against Customized Text-to-Image Synthesis

要約

カスタマイズされた拡散モデルの台頭により、パーソナライズされた視覚コンテンツの作成が活気づきましたが、悪意のある誤用のリスクも引き起こし、個人のプライバシーと著作権保護を厳しく脅かしています。
いくつかの研究は、画像の美的特性が画質の人間の認識と非常に正の相関があることを示しています。
これに触発されて、私たちは斬新で興味をそそる美的観点から問題にアプローチし、悪意のあるカスタマイズされたモデルの生成品質を低下させ、それによって顔のアイデンティティのより良い保護を実現します。
具体的には、2つの重要な分岐で構成される美学の手がかりを完全に探求するための階層抗アスエティック(HAA)フレームワークを提案します。
2)局所的な反美術学:局所的な抗審美的な報酬メカニズムと局所的な抗アスエティック損失は、局所的な顔のアイデンティティを混乱させるために敵対的な摂動を導くように設計されています。
両方のブランチをシームレスに統合することにより、当社のHAAは、カスタマイズされた世代の間に、グローバルレベルからローカルレベルへの反美学の目標を効果的に達成します。
広範な実験では、HAAが既存のSOTAメソッドを主にアイデンティティ除去で上回り、顔のプライバシーと著作権を保護するための強力なツールを提供することが示されています。

要約(オリジナル)

The rise of customized diffusion models has spurred a boom in personalized visual content creation, but also poses risks of malicious misuse, severely threatening personal privacy and copyright protection. Some studies show that the aesthetic properties of images are highly positively correlated with human perception of image quality. Inspired by this, we approach the problem from a novel and intriguing aesthetic perspective to degrade the generation quality of maliciously customized models, thereby achieving better protection of facial identity. Specifically, we propose a Hierarchical Anti-Aesthetic (HAA) framework to fully explore aesthetic cues, which consists of two key branches: 1) Global Anti-Aesthetics: By establishing a global anti-aesthetic reward mechanism and a global anti-aesthetic loss, it can degrade the overall aesthetics of the generated content; 2) Local Anti-Aesthetics: A local anti-aesthetic reward mechanism and a local anti-aesthetic loss are designed to guide adversarial perturbations to disrupt local facial identity. By seamlessly integrating both branches, our HAA effectively achieves the goal of anti-aesthetics from a global to a local level during customized generation. Extensive experiments show that HAA outperforms existing SOTA methods largely in identity removal, providing a powerful tool for protecting facial privacy and copyright.

arxiv情報

著者 Songping Wang,Yueming Lyu,Shiqi Liu,Ning Li,Tong Tong,Hao Sun,Caifeng Shan
発行日 2025-04-23 13:23:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Anti-Aesthetics: Protecting Facial Privacy against Customized Text-to-Image Synthesis はコメントを受け付けていません

Energy-Based Pseudo-Label Refining for Source-free Domain Adaptation

要約

ソースデータへのアクセスなしでモデルを適応させることを伴うソースフリードメイン適応(SFDA)は、要求が厳しく、挑戦的です。
既存のSFDA技術は、通常、信頼レベルから生成された擬似ラベルに依存しており、有意な騒音による負の移動につながります。
この問題に取り組むために、SFDAにはエネルギーベースの擬似ラベル精製(EBPR)が提案されています。
擬似ラベルは、エネルギースコアに従ってすべてのサンプルクラスターに対して作成されます。
グローバルおよびクラスのエネルギーしきい値は、擬似ラベルを選択的にフィルタリングするために計算されます。
さらに、対照的な学習戦略が導入され、困難なサンプルをフィルタリングし、拡張バージョンに合わせて、より識別的な機能を学習します。
私たちの方法は、Office-31、Office-Home、およびVisda-Cデータセットで検証されており、モデルが最先端の方法よりも優れていることを常に発見しました。

要約(オリジナル)

Source-free domain adaptation (SFDA), which involves adapting models without access to source data, is both demanding and challenging. Existing SFDA techniques typically rely on pseudo-labels generated from confidence levels, leading to negative transfer due to significant noise. To tackle this problem, Energy-Based Pseudo-Label Refining (EBPR) is proposed for SFDA. Pseudo-labels are created for all sample clusters according to their energy scores. Global and class energy thresholds are computed to selectively filter pseudo-labels. Furthermore, a contrastive learning strategy is introduced to filter difficult samples, aligning them with their augmented versions to learn more discriminative features. Our method is validated on the Office-31, Office-Home, and VisDA-C datasets, consistently finding that our model outperformed state-of-the-art methods.

arxiv情報

著者 Xinru Meng,Han Sun,Jiamei Liu,Ningzhong Liu,Huiyu Zhou
発行日 2025-04-23 13:26:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Energy-Based Pseudo-Label Refining for Source-free Domain Adaptation はコメントを受け付けていません

CF-CAM: Cluster Filter Class Activation Mapping for Reliable Gradient-Based Interpretability

要約

深い学習が進行し続けるにつれて、ニューラルネットワークの意思決定の透明性は依然として重要な課題であり、ハイステークスドメインでの信頼と適用性を制限しています。
クラスのアクティベーションマッピング(CAM)技術は、モデルの決定を視覚化するための重要なアプローチとして浮上していますが、既存の方法は固有のトレードオフに直面しています。
勾配ベースのCAMバリアントは、勾配ノイズによる勾配摂動に対する感度に悩まされ、不安定で信頼できない説明につながります。
逆に、勾配のないアプローチは勾配の不安定性を緩和しますが、重要な計算オーバーヘッドと推論の潜在性が発生します。
これらの制限に対処するために、クラスターフィルタークラスアクティベーションマップ(CF-CAM)手法を提案します。これは、グラデーションベースの重み付けを再導入しながら勾配ノイズに対する堅牢性を高める新しいフレームワークです。
CF-CAMは、階層的な重要性の重み付け戦略を利用して、識別機能の保存とノイズの排除のバランスをとります。
ノイズ(DBSCAN)グループを使用したアプリケーションの密度ベースの空間クラスタリングを介した密度認識チャネルクラスタリング法(DBSCAN)は、意味的に関連する特徴チャネルをグループ化し、ノイズが発生しやすいアクティブ化を破棄します。
さらに、クラスター条件付き勾配フィルタリングレバレッジガウスフィルターをレバレッジして勾配信号を改良し、ノイズの影響を抑制しながらエッジが意識したローカリゼーションを維持します。
実験結果は、CF-CAMが計算効率を高めながら、忠実さと堅牢性の最先端のCAMメソッドを上回りながら、優れた解釈可能性パフォーマンスを達成することを示しています。
過度の計算コストなしで勾配の不安定性を効果的に緩和することにより、CF-CAMは、自律運転や医療診断などの重要なアプリケーションで深いニューラルネットワークの解釈可能性を高めるための競合ソリューションを提供します。

要約(オリジナル)

As deep learning continues to advance, the transparency of neural network decision-making remains a critical challenge, limiting trust and applicability in high-stakes domains. Class Activation Mapping (CAM) techniques have emerged as a key approach toward visualizing model decisions, yet existing methods face inherent trade-offs. Gradient-based CAM variants suffer from sensitivity to gradient perturbations due to gradient noise, leading to unstable and unreliable explanations. Conversely, gradient-free approaches mitigate gradient instability but incur significant computational overhead and inference latency. To address these limitations, we propose a Cluster Filter Class Activation Map (CF-CAM) technique, a novel framework that reintroduces gradient-based weighting while enhancing robustness against gradient noise. CF-CAM utilizes hierarchical importance weighting strategy to balance discriminative feature preservation and noise elimination. A density-aware channel clustering method via Density-Based Spatial Clustering of Applications with Noise (DBSCAN) groups semantically relevant feature channels and discard noise-prone activations. Additionally, cluster-conditioned gradient filtering leverages Gaussian filters to refine gradient signals, preserving edge-aware localization while suppressing noise impact. Experiment results demonstrate that CF-CAM achieves superior interpretability performance while enhancing computational efficiency, outperforming state-of-the-art CAM methods in faithfulness and robustness. By effectively mitigating gradient instability without excessive computational cost, CF-CAM provides a competitive solution for enhancing the interpretability of deep neural networks in critical applications such as autonomous driving and medical diagnosis.

arxiv情報

著者 Hongjie He,Xu Pan,Yudong Yao
発行日 2025-04-23 13:49:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | CF-CAM: Cluster Filter Class Activation Mapping for Reliable Gradient-Based Interpretability はコメントを受け付けていません

PMG: Progressive Motion Generation via Sparse Anchor Postures Curriculum Learning

要約

コンピューターアニメーション、ゲームデザイン、および人間コンピューターの相互作用では、ユーザーの意図と整合する人間の動きを合成することは依然として重要な課題です。
既存の方法には顕著な制限があります。テキストアプローチは高レベルのセマンティックガイダンスを提供しますが、複雑なアクションを正確に説明するのに苦労しています。
軌道ベースの手法は、直感的なグローバルな動きの方向を提供しますが、多くの場合、正確またはカスタマイズされた文字の動きを生成するのに不足しています。
アンカーポーズ誘導法は、通常、単純なモーションパターンのみを合成するために限定されます。
より制御可能で正確な人間の動きを生成するために、\ textBf {promogen(Progressive Motion Generation)}を提案します。これは、軌道ガイダンスをまばらなアンカーモーションコントロールと統合する新しいフレームワークです。
グローバルな軌跡は、空間的方向と変位の一貫性を確保し、スパースアンカーの動きは、変位なしで正確なアクションガイダンスのみを提供するだけです。
この分離により、両方の側面を独立した改良性が可能になり、より制御可能で高忠実度が高く、洗練されたモーション合成が生じます。
Promogenは、統一されたトレーニングプロセス内でデュアルコントロールパラダイムと単一制御パラダイムの両方をサポートします。
さらに、まばらな動きからの直接学習は本質的に不安定であることを認識しています。\ textbf {sap-cl(スパースアンカー姿勢カリキュラム学習)}を紹介します。
広範な実験は、プロモジェンが事前に定義された軌跡と任意のアンカーフレームによって導かれる鮮やかで多様な動きの合成に優れていることを示しています。
私たちのアプローチは、パーソナライズされた動きを構造化されたガイダンスとシームレスに統合し、複数の制御シナリオで最先端の方法を大幅に上回っています。

要約(オリジナル)

In computer animation, game design, and human-computer interaction, synthesizing human motion that aligns with user intent remains a significant challenge. Existing methods have notable limitations: textual approaches offer high-level semantic guidance but struggle to describe complex actions accurately; trajectory-based techniques provide intuitive global motion direction yet often fall short in generating precise or customized character movements; and anchor poses-guided methods are typically confined to synthesize only simple motion patterns. To generate more controllable and precise human motions, we propose \textbf{ProMoGen (Progressive Motion Generation)}, a novel framework that integrates trajectory guidance with sparse anchor motion control. Global trajectories ensure consistency in spatial direction and displacement, while sparse anchor motions only deliver precise action guidance without displacement. This decoupling enables independent refinement of both aspects, resulting in a more controllable, high-fidelity, and sophisticated motion synthesis. ProMoGen supports both dual and single control paradigms within a unified training process. Moreover, we recognize that direct learning from sparse motions is inherently unstable, we introduce \textbf{SAP-CL (Sparse Anchor Posture Curriculum Learning)}, a curriculum learning strategy that progressively adjusts the number of anchors used for guidance, thereby enabling more precise and stable convergence. Extensive experiments demonstrate that ProMoGen excels in synthesizing vivid and diverse motions guided by predefined trajectory and arbitrary anchor frames. Our approach seamlessly integrates personalized motion with structured guidance, significantly outperforming state-of-the-art methods across multiple control scenarios.

arxiv情報

著者 Yingjie Xi,Jian Jun Zhang,Xiaosong Yang
発行日 2025-04-23 13:51:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | PMG: Progressive Motion Generation via Sparse Anchor Postures Curriculum Learning はコメントを受け付けていません