Denoising Functional Maps: Diffusion Models for Shape Correspondence

要約

変形可能な形状のペア間の対応を推定することは、困難な問題のままです。
大幅な進歩にもかかわらず、既存の方法には広範な一般化機能が欠けており、カテゴリ固有のトレーニングデータが必要です。
これらの制限に対処するために、拡散モデルを形成することに基づいて対応を形作るための根本的に新しいアプローチを提案します。
この方法では、拡散モデルは、形状間のポイントワイズマップの低次元表現である機能マップを直接予測することを学びます。
トレーニングには合成ヒトメッシュの大きなデータセットを使用し、学習する必要がある機能マップの数を減らすために2つのステップを採用します。
まず、マップは形状のペアではなくテンプレートを指します。
第二に、関数マップはラプラシアンの固有ベクトルの基礎で定義されますが、これは曖昧さに署名するために一意ではありません。
したがって、表面の特徴に基づいて固有ベクトルの兆候を修正することにより、特定の基礎を選択するための監視されていないアプローチを紹介します。
私たちのモデルは、標準的なヒトデータセットで競争力のあるパフォーマンスを達成し、異方性接続性とメッシュ、非等容量のヒューマノイド形状、および既存の記述子ベースおよび大規模な形状変形方法と比較して動物を達成します。
ソースコードとデータセットについては、プロジェクトページを参照してください。

要約(オリジナル)

Estimating correspondences between pairs of deformable shapes remains a challenging problem. Despite substantial progress, existing methods lack broad generalization capabilities and require category-specific training data. To address these limitations, we propose a fundamentally new approach to shape correspondence based on denoising diffusion models. In our method, a diffusion model learns to directly predict the functional map, a low-dimensional representation of a point-wise map between shapes. We use a large dataset of synthetic human meshes for training and employ two steps to reduce the number of functional maps that need to be learned. First, the maps refer to a template rather than shape pairs. Second, the functional map is defined in a basis of eigenvectors of the Laplacian, which is not unique due to sign ambiguity. Therefore, we introduce an unsupervised approach to select a specific basis by correcting the signs of eigenvectors based on surface features. Our model achieves competitive performance on standard human datasets, meshes with anisotropic connectivity, non-isometric humanoid shapes, as well as animals compared to existing descriptor-based and large-scale shape deformation methods. See our project page for the source code and the datasets.

arxiv情報

著者 Aleksei Zhuravlev,Zorah Lähner,Vladislav Golyanik
発行日 2025-04-02 14:01:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Denoising Functional Maps: Diffusion Models for Shape Correspondence はコメントを受け付けていません

Target-Aware Video Diffusion Models

要約

ターゲットが認識しているビデオ拡散モデルを提示します。これは、俳優が目的のアクションを実行しながら、アクターが指定されたターゲットと対話する入力画像からビデオを生成します。
ターゲットはセグメンテーションマスクによって定義され、目的のアクションはテキストプロンプトを介して説明されます。
既存の制御可能な画像からビデオ間拡散モデルとは異なり、俳優の動きをターゲットに導くために密な構造またはモーションの手がかりに依存することが多いとは異なり、ターゲット認識モデルでは、ターゲットを示すための単純なマスクのみが必要であり、事前に擁護されたモデルの一般化能力を活用して妥当なアクションを生成します。
これにより、私たちの方法は、正確なアクションガイダンスを提供することが困難であり、ロボットなどのアプリケーションでの高レベルのアクションプランニングにビデオ拡散モデルを使用できるようになり、ヒューマンオブジェクトインタラクション(HOI)シナリオに特に効果的になります。
ターゲットマスクを追加の入力として組み込むためにベースラインモデルを拡張することにより、ターゲット認識モデルを構築します。
ターゲットの認識を実施するために、テキストプロンプト内のターゲットの空間情報をコードする特別なトークンを導入します。
次に、このトークンに関連付けられたクロスアテンションマップを入力ターゲットマスクに合わせる新しいクロスアテンション損失を使用して、キュレーションされたデータセットでモデルを微調整します。
パフォーマンスをさらに向上させるために、この損失を最も意味的に関連する変圧器ブロックと注意領域に選択的に適用します。
実験結果は、ターゲット認識モデルが、俳優が指定されたターゲットと正確に対話するビデオを生成する際に既存のソリューションを上回ることを示しています。
さらに、ビデオコンテンツの作成とゼロショット3D HOIモーション合成という2つのダウンストリームアプリケーションでその有効性を示します。

要約(オリジナル)

We present a target-aware video diffusion model that generates videos from an input image in which an actor interacts with a specified target while performing a desired action. The target is defined by a segmentation mask and the desired action is described via a text prompt. Unlike existing controllable image-to-video diffusion models that often rely on dense structural or motion cues to guide the actor’s movements toward the target, our target-aware model requires only a simple mask to indicate the target, leveraging the generalization capabilities of pretrained models to produce plausible actions. This makes our method particularly effective for human-object interaction (HOI) scenarios, where providing precise action guidance is challenging, and further enables the use of video diffusion models for high-level action planning in applications such as robotics. We build our target-aware model by extending a baseline model to incorporate the target mask as an additional input. To enforce target awareness, we introduce a special token that encodes the target’s spatial information within the text prompt. We then fine-tune the model with our curated dataset using a novel cross-attention loss that aligns the cross-attention maps associated with this token with the input target mask. To further improve performance, we selectively apply this loss to the most semantically relevant transformer blocks and attention regions. Experimental results show that our target-aware model outperforms existing solutions in generating videos where actors interact accurately with the specified targets. We further demonstrate its efficacy in two downstream applications: video content creation and zero-shot 3D HOI motion synthesis.

arxiv情報

著者 Taeksoo Kim,Hanbyul Joo
発行日 2025-04-02 14:11:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Target-Aware Video Diffusion Models はコメントを受け付けていません

Bridge the Gap between SNN and ANN for Image Restoration

要約

従来の人工ニューラルネットワーク(ANN)に基づく密な予測のモデルには、特に画像修復タスクのために多くのエネルギーが必要です。
現在、SNN(スパイクニューラルネットワーク)フレームワークに基づくニューラルネットワークは、特に同じアーキテクチャでANNのエネルギーの10 \%未満を使用するため、画像修復の分野でマークを付け始めています。
ただし、SNNのトレーニングは、ヒューリスティック勾配降下戦略の使用により、ANNをトレーニングするよりもはるかに高価です。
言い換えれば、SNNの潜在的な膜信号のスパースから密度に変化するプロセスは非常に遅く、これはモデル全体の収束に影響を及ぼします。この問題に取り組むために、教師がANNであり、学生がSNNである非対称フレームワーク(ANN-SNN)蒸留と呼ばれる新しい蒸留技術を提案します。
具体的には、SNNのトレーニングプロセスをガイドするためのヒントとして、ANNが学んだ中間機能(機能マップ)を活用します。
このアプローチは、SNNの収束を加速するだけでなく、最終的なパフォーマンスを改善し、SNNの効率とANNの優れた学習能力とのギャップを効果的に埋めることもできます。
広範な実験結果は、設計されたSNNベースの画像修復モデルは、教師ネットワークのパラメーターの数と1/50の教師ネットワークのエネルギー消費量の1/300しかないことを示しています。

要約(オリジナル)

Models of dense prediction based on traditional Artificial Neural Networks (ANNs) require a lot of energy, especially for image restoration tasks. Currently, neural networks based on the SNN (Spiking Neural Network) framework are beginning to make their mark in the field of image restoration, especially as they typically use less than 10\% of the energy of ANNs with the same architecture. However, training an SNN is much more expensive than training an ANN, due to the use of the heuristic gradient descent strategy. In other words, the process of SNN’s potential membrane signal changing from sparse to dense is very slow, which affects the convergence of the whole model.To tackle this problem, we propose a novel distillation technique, called asymmetric framework (ANN-SNN) distillation, in which the teacher is an ANN and the student is an SNN. Specifically, we leverage the intermediate features (feature maps) learned by the ANN as hints to guide the training process of the SNN. This approach not only accelerates the convergence of the SNN but also improves its final performance, effectively bridging the gap between the efficiency of the SNN and the superior learning capabilities of ANN. Extensive experimental results show that our designed SNN-based image restoration model, which has only 1/300 the number of parameters of the teacher network and 1/50 the energy consumption of the teacher network, is as good as the teacher network in some denoising tasks.

arxiv情報

著者 Xin Su,Chen Wu,Zhuoran Zheng
発行日 2025-04-02 14:12:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Bridge the Gap between SNN and ANN for Image Restoration はコメントを受け付けていません

Enhancing Implicit Neural Representations via Symmetric Power Transformation

要約

データ変換の観点から、暗黙の神経表現〜(INR)の能力を高めるために対称電力変換を提案します。
ランダムな順列またはインデックスの再配置を利用する以前の作業とは異なり、私たちの方法は、追加のストレージ消費を必要としない可逆操作を特徴としています。
具体的には、最初にINRのトレーニングに利益をもたらすことができるデータの特性を調査し、特定の範囲と対称性がINRの表現能力を改善できると仮定する範囲定義の対称仮説を提案します。
この仮説に基づいて、範囲定義と対称の両方の特性を同時に実現するために、非線形対称電力変換を提案します。
電力係数を使用して、データを再分配して、ターゲット範囲内の対称性を近似します。
変換の堅牢性を向上させるために、極端な偏差ブーストと連続性の破壊の問題に対処するために、偏差を意識したキャリブレーションと適応的なソフト境界をさらに設計します。
提案された方法のパフォーマンスを検証するために広範な実験が行われ、他のデータ変換と比較して変換がINRを確実に改善できることを示しています。
また、1Dオーディオ、2D画像、3Dビデオフィッティングタスクを実施して、メソッドの有効性と適用性を実証します。

要約(オリジナル)

We propose symmetric power transformation to enhance the capacity of Implicit Neural Representation~(INR) from the perspective of data transformation. Unlike prior work utilizing random permutation or index rearrangement, our method features a reversible operation that does not require additional storage consumption. Specifically, we first investigate the characteristics of data that can benefit the training of INR, proposing the Range-Defined Symmetric Hypothesis, which posits that specific range and symmetry can improve the expressive ability of INR. Based on this hypothesis, we propose a nonlinear symmetric power transformation to achieve both range-defined and symmetric properties simultaneously. We use the power coefficient to redistribute data to approximate symmetry within the target range. To improve the robustness of the transformation, we further design deviation-aware calibration and adaptive soft boundary to address issues of extreme deviation boosting and continuity breaking. Extensive experiments are conducted to verify the performance of the proposed method, demonstrating that our transformation can reliably improve INR compared with other data transformations. We also conduct 1D audio, 2D image and 3D video fitting tasks to demonstrate the effectiveness and applicability of our method.

arxiv情報

著者 Weixiang Zhang,Shuzhao Xie,Chengwei Ren,Shijia Ge,Mingzi Wang,Zhi Wang
発行日 2025-04-02 14:12:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Enhancing Implicit Neural Representations via Symmetric Power Transformation はコメントを受け付けていません

SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation

要約

近年、拡散モデルの開発により、画像生成タスクとビデオ生成タスクが大幅に進歩し、安定した拡散シリーズのような事前に訓練されたモデルが重要な役割を果たしています。
重要でないパラメーターを削除することにより、大規模な訓練を受けたモデルを明るくするモデルの剪定に触発され、これらの効果的なパラメーターを最大限に活用し、新しいタスク指定機能を備えた事前に訓練されたモデルを有効にするための新しいモデルの微調整方法を提案します。
この作業では、最初に訓練を受けた拡散モデルにおけるパラメーターの重要性を調査し、絶対値によるパラメーターの最小10%から20%が生成プロセスに寄与しないことを発見します。
この観察に基づいて、これらの一時的に効果のないパラメーターを再利用するSARAと呼ばれる方法を提案し、タスク固有の知識を学習するためにスパース重量マトリックスを最適化することに相当します。
過剰適合を緩和するために、効率的な微調整のための原子力標準ベースの低ランクスパーストレーニングスキームを提案します。
さらに、再訓練/凝集したパラメーターを最大限に活用するために、新しいプログレッシブパラメーター調整戦略を設計します。
最後に、微調整中のメモリコストを大幅に削減する新しい非構造的なバックプロパゲーション戦略を提案します。
私たちの方法は、下流のアプリケーションでの事前に訓練されたモデルの生成能力を強化し、モデルの一般化能力を維持する際にLORAのような従来の微調整方法を上回ります。
SDモデルでの微調整実験を通じてアプローチを検証し、大幅な改善を示しています。
SARAはまた、効率的な実装のために単一のコード変更のみを必要とする実用的な利点を提供し、既存の方法とシームレスに互換性があります。

要約(オリジナル)

In recent years, the development of diffusion models has led to significant progress in image and video generation tasks, with pre-trained models like the Stable Diffusion series playing a crucial role. Inspired by model pruning which lightens large pre-trained models by removing unimportant parameters, we propose a novel model fine-tuning method to make full use of these ineffective parameters and enable the pre-trained model with new task-specified capabilities. In this work, we first investigate the importance of parameters in pre-trained diffusion models, and discover that the smallest 10% to 20% of parameters by absolute values do not contribute to the generation process. Based on this observation, we propose a method termed SaRA that re-utilizes these temporarily ineffective parameters, equating to optimizing a sparse weight matrix to learn the task-specific knowledge. To mitigate overfitting, we propose a nuclear-norm-based low-rank sparse training scheme for efficient fine-tuning. Furthermore, we design a new progressive parameter adjustment strategy to make full use of the re-trained/finetuned parameters. Finally, we propose a novel unstructural backpropagation strategy, which significantly reduces memory costs during fine-tuning. Our method enhances the generative capabilities of pre-trained models in downstream applications and outperforms traditional fine-tuning methods like LoRA in maintaining model’s generalization ability. We validate our approach through fine-tuning experiments on SD models, demonstrating significant improvements. SaRA also offers a practical advantage that requires only a single line of code modification for efficient implementation and is seamlessly compatible with existing methods.

arxiv情報

著者 Teng Hu,Jiangning Zhang,Ran Yi,Hongrui Huang,Yabiao Wang,Lizhuang Ma
発行日 2025-04-02 14:16:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation はコメントを受け付けていません

Dual-stream Transformer-GCN Model with Contextualized Representations Learning for Monocular 3D Human Pose Estimation

要約

このペーパーでは、変圧器GCNデュアルストリームモデルを使用した文脈化された表現学習を使用して、単眼3Dヒトポーズ推定に対する新しいアプローチを紹介します。
単眼3Dのヒトポーズ推定は、深さのあいまいさ、限られた3D標識トレーニングデータ、不均衡なモデリング、および制限されたモデルの一般化によって挑戦されます。
これらの制限に対処するために、私たちの研究では、文脈化された表現学習に基づいて画期的なモーションプリトレーニング方法を導入します。
具体的には、私たちの方法では、2Dポーズ機能をマスキングし、変圧器GCNデュアルストリームモデルを利用して、自己設定セットアップを通じて高次元表現を学習します。
文脈化された表現学習と空間的モデリングに焦点を当てることにより、我々のアプローチは、姿勢間の空間的関係を理解するモデルの能力を高め、優れた一般化をもたらします。
さらに、トランスGCNデュアルストリームモデルを活用すると、このアプローチは、ビデオポーズの推定におけるグローバルな相互作用と局所的な相互作用のバランスを効果的にバランスさせます。
このモデルは、変圧器とGCNの両方のストリームからの情報を適応的に統合し、GCNストリームは隣接するキーポイントとフレーム間のローカルな関係を効果的に学習し、トランスストリームは包括的なグローバルな空間的および時間的機能をキャプチャします。
私たちのモデルは、2つのベンチマークデータセットで最先端のパフォーマンスを実現し、MPJPEは38.0mm、P-MPJPEはHuman 3.6Mで31.9mm、MPI-INF-3DHPで15.9mmのMPJPEが達成されます。
さらに、パブリックデータセットとワイルドビデオでの視覚実験は、アプローチの堅牢性と一般化能力を示しています。

要約(オリジナル)

This paper introduces a novel approach to monocular 3D human pose estimation using contextualized representation learning with the Transformer-GCN dual-stream model. Monocular 3D human pose estimation is challenged by depth ambiguity, limited 3D-labeled training data, imbalanced modeling, and restricted model generalization. To address these limitations, our work introduces a groundbreaking motion pre-training method based on contextualized representation learning. Specifically, our method involves masking 2D pose features and utilizing a Transformer-GCN dual-stream model to learn high-dimensional representations through a self-distillation setup. By focusing on contextualized representation learning and spatial-temporal modeling, our approach enhances the model’s ability to understand spatial-temporal relationships between postures, resulting in superior generalization. Furthermore, leveraging the Transformer-GCN dual-stream model, our approach effectively balances global and local interactions in video pose estimation. The model adaptively integrates information from both the Transformer and GCN streams, where the GCN stream effectively learns local relationships between adjacent key points and frames, while the Transformer stream captures comprehensive global spatial and temporal features. Our model achieves state-of-the-art performance on two benchmark datasets, with an MPJPE of 38.0mm and P-MPJPE of 31.9mm on Human3.6M, and an MPJPE of 15.9mm on MPI-INF-3DHP. Furthermore, visual experiments on public datasets and in-the-wild videos demonstrate the robustness and generalization capabilities of our approach.

arxiv情報

著者 Mingrui Ye,Lianping Yang,Hegui Zhu,Zenghao Zheng,Xin Wang,Yantao Lo
発行日 2025-04-02 14:17:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Dual-stream Transformer-GCN Model with Contextualized Representations Learning for Monocular 3D Human Pose Estimation はコメントを受け付けていません

Leveraging Embedding Techniques in Multimodal Machine Learning for Mental Illness Assessment

要約

うつ病やPTSDなどの精神障害の世界的な有病率の増加には、客観的でスケーラブルな診断ツールが必要です。
従来の臨床評価は、多くの場合、アクセシビリティ、客観性、一貫性の制限に直面しています。
このペーパーでは、これらの課題に対処するためのマルチモーダル機械学習の可能性を調査し、テキスト、オーディオ、ビデオデータで利用可能な補完的な情報を活用します。
私たちのアプローチには、新しいチャンクや発話ベースのフォーマット戦略など、さまざまなデータの前処理技術の包括的な分析が含まれます。
各モダリティの最先端の埋め込みモデルの範囲を体系的に評価し、特徴抽出のために畳み込みニューラルネットワーク(CNNS)および双方向LSTMネットワーク(BILSTMS)を採用します。
大規模な言語モデル(LLM)予測の新しい統合を含む、データレベル、機能レベル、および意思決定レベルの融合技術を探ります。
また、多層パーセプトロン分類器をサポートベクトルマシンに置き換えることの影響を調査します。
PHQ-8およびPCL-Cスコアとマルチクラス分類を使用して、分析を重症度予測に拡張します(共起状態を考慮します)。
私たちの結果は、特にテキストとオーディオのモダリティのために、発話ベースのチャンキングがパフォーマンスを大幅に改善することを示しています。
LLM予測を組み込んだ意思決定レベルの融合は、うつ病で94.8%、PTSD検出で96.2%のバランスの取れた精度で最高の精度を達成します。
CNN-Bilstmアーキテクチャと発話レベルのチャンキングと外部LLMの統合と組み合わされた組み合わせは、精神的健康状態の検出と評価に強力で微妙なアプローチを提供します。
私たちの調査結果は、より正確でアクセスしやすく、パーソナライズされたメンタルヘルスケアツールを開発するためのMMMLの可能性を強調しています。

要約(オリジナル)

The increasing global prevalence of mental disorders, such as depression and PTSD, requires objective and scalable diagnostic tools. Traditional clinical assessments often face limitations in accessibility, objectivity, and consistency. This paper investigates the potential of multimodal machine learning to address these challenges, leveraging the complementary information available in text, audio, and video data. Our approach involves a comprehensive analysis of various data preprocessing techniques, including novel chunking and utterance-based formatting strategies. We systematically evaluate a range of state-of-the-art embedding models for each modality and employ Convolutional Neural Networks (CNNs) and Bidirectional LSTM Networks (BiLSTMs) for feature extraction. We explore data-level, feature-level, and decision-level fusion techniques, including a novel integration of Large Language Model (LLM) predictions. We also investigate the impact of replacing Multilayer Perceptron classifiers with Support Vector Machines. We extend our analysis to severity prediction using PHQ-8 and PCL-C scores and multi-class classification (considering co-occurring conditions). Our results demonstrate that utterance-based chunking significantly improves performance, particularly for text and audio modalities. Decision-level fusion, incorporating LLM predictions, achieves the highest accuracy, with a balanced accuracy of 94.8% for depression and 96.2% for PTSD detection. The combination of CNN-BiLSTM architectures with utterance-level chunking, coupled with the integration of external LLM, provides a powerful and nuanced approach to the detection and assessment of mental health conditions. Our findings highlight the potential of MMML for developing more accurate, accessible, and personalized mental healthcare tools.

arxiv情報

著者 Abdelrahaman A. Hassan,Abdelrahman A. Ali,Aya E. Fouda,Radwa J. Hanafy,Mohammed E. Fouda
発行日 2025-04-02 14:19:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.AS | Leveraging Embedding Techniques in Multimodal Machine Learning for Mental Illness Assessment はコメントを受け付けていません

Memory-efficient Low-latency Remote Photoplethysmography through Temporal-Spatial State Space Duality

要約

リモートフォトプレチスモグラフィ(RPPG)は、顔の光反射分析を通じて非接触生理的モニタリングを可能にし、深い学習が法的なリソース要求のコストでパフォーマンスの向上をもたらすため、重要な計算ボトルネックに直面します。
このホワイトペーパーでは、ME-RPPGは、モデルのスケーラビリティ、クロスダタセット一般化、およびリアルタイム制約のトリレマを解決する時間空間空間の二重性に基づいて構築されたメモリ効率の高いアルゴリズムです。
移転可能な状態空間を活用して、ME-RPPGは、最小限の計算オーバーヘッドを維持しながら、顔面フレーム間で微妙な定期的な変動を効率的にキャプチャし、拡張ビデオシーケンスでのトレーニングを可能にし、低遅延の推論をサポートします。
5.38(MMPD)、0.70(VitalVideo)、および0.25(純粋)のクロスダタセットMAEを達成すると、ME-RPPGは、21.3%から60.2%の範囲の改善ですべてのベースラインよりも優れています。
当社のソリューションにより、わずか3.6 MBのメモリ使用量と9.46ミリ秒のレイテンシでリアルタイム推論が可能になります。既存の方法を19.5%-49.7%の精度と43.2%のユーザー満足度を実世界の展開に上回ります。
コードとデモは、https://github.com/health-hci-group/me-rppg-demoで再現性のためにリリースされます。

要約(オリジナル)

Remote photoplethysmography (rPPG), enabling non-contact physiological monitoring through facial light reflection analysis, faces critical computational bottlenecks as deep learning introduces performance gains at the cost of prohibitive resource demands. This paper proposes ME-rPPG, a memory-efficient algorithm built on temporal-spatial state space duality, which resolves the trilemma of model scalability, cross-dataset generalization, and real-time constraints. Leveraging a transferable state space, ME-rPPG efficiently captures subtle periodic variations across facial frames while maintaining minimal computational overhead, enabling training on extended video sequences and supporting low-latency inference. Achieving cross-dataset MAEs of 5.38 (MMPD), 0.70 (VitalVideo), and 0.25 (PURE), ME-rPPG outperforms all baselines with improvements ranging from 21.3% to 60.2%. Our solution enables real-time inference with only 3.6 MB memory usage and 9.46 ms latency — surpassing existing methods by 19.5%-49.7% accuracy and 43.2% user satisfaction gains in real-world deployments. The code and demos are released for reproducibility on https://github.com/Health-HCI-Group/ME-rPPG-demo.

arxiv情報

著者 Kegang Wang,Jiankai Tang,Yuxuan Fan,Jiatong Ji,Yuanchun Shi,Yuntao Wang
発行日 2025-04-02 14:34:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Memory-efficient Low-latency Remote Photoplethysmography through Temporal-Spatial State Space Duality はコメントを受け付けていません

EVOS: Efficient Implicit Neural Training via EVOlutionary Selector

要約

暗黙の神経表現(INR)を加速するための効率的なトレーニングパラダイムである進化セレクター(EVOS)を提案します。
各反復でニューラルネットワークを介してすべてのサンプルを供給する従来のINRトレーニングとは異なり、私たちのアプローチは、トレーニングを戦略的に選択したポイントに制限し、冗長な前方パスを排除することにより計算オーバーヘッドを削減します。
具体的には、各サンプルを進化プロセスの個人として扱います。これらのサンプルは、それらの適者だけが生き残り、トレーニングに包括的であり、神経ネットワークのダイナミクスで適応的に進化します。
これは概念的には進化的アルゴリズムと類似していますが、それらの明確な目的(アクセラレーションの選択と反復ソリューションの最適化の選択)には、コンテキストのための進化メカニズムの基本的な再定義が必要です。
これに応じて、私たちはまばらなフィットネス評価、周波数誘導クロスオーバーを設計し、EVOを構成するために偏りのない突然変異を増強しました。
これらのコンポーネントは、それぞれ計算コストを削減してサンプル選択を導き、周波数ドメインバランスを通じてパフォーマンスを向上させ、キャッシュ評価から選択バイアスを緩和します。
広範な実験は、私たちの方法がトレーニング時間の約48%〜66%の短縮を達成しながら、追加のコストなしで優れた収束を確保し、最近のサンプリングベースの戦略間の最先端の加速を確立することを示しています。

要約(オリジナル)

We propose EVOlutionary Selector (EVOS), an efficient training paradigm for accelerating Implicit Neural Representation (INR). Unlike conventional INR training that feeds all samples through the neural network in each iteration, our approach restricts training to strategically selected points, reducing computational overhead by eliminating redundant forward passes. Specifically, we treat each sample as an individual in an evolutionary process, where only those fittest ones survive and merit inclusion in training, adaptively evolving with the neural network dynamics. While this is conceptually similar to Evolutionary Algorithms, their distinct objectives (selection for acceleration vs. iterative solution optimization) require a fundamental redefinition of evolutionary mechanisms for our context. In response, we design sparse fitness evaluation, frequency-guided crossover, and augmented unbiased mutation to comprise EVOS. These components respectively guide sample selection with reduced computational cost, enhance performance through frequency-domain balance, and mitigate selection bias from cached evaluation. Extensive experiments demonstrate that our method achieves approximately 48%-66% reduction in training time while ensuring superior convergence without additional cost, establishing state-of-the-art acceleration among recent sampling-based strategies.

arxiv情報

著者 Weixiang Zhang,Shuzhao Xie,Chengwei Ren,Siyi Xie,Chen Tang,Shijia Ge,Mingzi Wang,Zhi Wang
発行日 2025-04-02 14:51:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.NE | EVOS: Efficient Implicit Neural Training via EVOlutionary Selector はコメントを受け付けていません

DreamScape: 3D Scene Creation via Gaussian Splatting joint Correlation Modeling

要約

テキストから3Dの作成における最近の進歩により、拡散モデルの強力な事前モデルをテキストからイメージの生成から3Dドメインに統合します。
それにもかかわらず、複数のオブジェクトを使用して3Dシーンを生成することは依然として困難です。
したがって、テキストから3Dシーンを生成する方法であるDreamscapeを提示します。
3D表現のためにガウスのスプラッティングを利用して、Dreamscapeは、LLMを使用したテキストからのセマンティックプリミティブ、空間的変換、および関係をコードし、ローカルからグローバルの最適化を可能にする3Dガウスガイドを紹介します。
プログレッシブスケール制御は、ローカルオブジェクトの生成中に調整され、グローバルな最適化段階での単純なブレンドから生じるトレーニング不安定性の問題に対処します。
オブジェクト間の衝突関係は、LLMS事前にバイアスを緩和するためにグローバルレベルでモデル化され、身体的正しさを確保します。
さらに、雨や雪などの広範なオブジェクトをシーン全体に広範囲に生成するために、特殊なまばらな初期化と密度化戦略を設計します。
実験は、Dreamscapeが最先端のパフォーマンスを達成し、高忠実で制御可能な3Dシーン生成を可能にすることを示しています。

要約(オリジナル)

Recent advances in text-to-3D creation integrate the potent prior of Diffusion Models from text-to-image generation into 3D domain. Nevertheless, generating 3D scenes with multiple objects remains challenging. Therefore, we present DreamScape, a method for generating 3D scenes from text. Utilizing Gaussian Splatting for 3D representation, DreamScape introduces 3D Gaussian Guide that encodes semantic primitives, spatial transformations and relationships from text using LLMs, enabling local-to-global optimization. Progressive scale control is tailored during local object generation, addressing training instability issue arising from simple blending in the global optimization stage. Collision relationships between objects are modeled at the global level to mitigate biases in LLMs priors, ensuring physical correctness. Additionally, to generate pervasive objects like rain and snow distributed extensively across the scene, we design specialized sparse initialization and densification strategy. Experiments demonstrate that DreamScape achieves state-of-the-art performance, enabling high-fidelity, controllable 3D scene generation.

arxiv情報

著者 Yueming Zhao,Xuening Yuan,Hongyu Yang,Di Huang
発行日 2025-04-02 14:54:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DreamScape: 3D Scene Creation via Gaussian Splatting joint Correlation Modeling はコメントを受け付けていません