FedSCA: Federated Tuning with Similarity-guided Collaborative Aggregation for Heterogeneous Medical Image Segmentation

要約

トランスベースの基礎モデル(FMS)は最近、医療画像のセグメンテーションにおける顕著なパフォーマンスを実証しています。
ただし、プライバシーの懸念によりデータの集中化が制限されている孤立した病院内の医療画像データセットが限られているため、これらのモデルをスケーリングすることは困難です。
これらの制約は、FMSのデータ集約的な性質と組み合わせて、より広いアプリケーションを妨げます。
Federated Learning(FL)とFoundation Models(FLFM)の微調整は、データ共有なしで共同モデルトレーニングを可能にすることにより、これらの課題に対する潜在的なソリューションを提供し、FMSが病院/クライアント全体で敏感な医療画像データの多様なプールを利用できるようにします。
ただし、クライアント間で非独立した同一に分散した(非IID)データは、連合環境での計算および通信の制約と組み合わせて、さらなるパフォーマンスの改善を制限し、既存の研究では不十分に対処されたままの追加の課題を提示します。
この作業では、新しいFLFM微調整フレームワークを提案します。
FLプロセスのすべてのフェーズを含む。
これには、(1)計算効率を高めるためのローカルクライアントトレーニング用の特別に設計されたパラメーター効率の高い微調整(PEFT)が含まれます。
(2)通信効率のための部分的な低レベルのアダプター伝送。
(3)非IIDの問題に対処するために、サーバー側の類似性誘導コラボレーション集約(SGCA)。
医療画像セグメンテーションのための3つのFLベンチマークでの広範な実験は、提案されたFEDSCAの有効性を示しており、新しいSOTAパフォーマンスを確立しています。

要約(オリジナル)

Transformer-based foundation models (FMs) have recently demonstrated remarkable performance in medical image segmentation. However, scaling these models is challenging due to the limited size of medical image datasets within isolated hospitals, where data centralization is restricted due to privacy concerns. These constraints, combined with the data-intensive nature of FMs, hinder their broader application. Integrating federated learning (FL) with foundation models (FLFM) fine-tuning offers a potential solution to these challenges by enabling collaborative model training without data sharing, thus allowing FMs to take advantage of a diverse pool of sensitive medical image data across hospitals/clients. However, non-independent and identically distributed (non-IID) data among clients, paired with computational and communication constraints in federated environments, presents an additional challenge that limits further performance improvements and remains inadequately addressed in existing studies. In this work, we propose a novel FLFM fine-tuning framework, \underline{\textbf{Fed}}erated tuning with \underline{\textbf{S}}imilarity-guided \underline{\textbf{C}}ollaborative \underline{\textbf{A}}ggregation (FedSCA), encompassing all phases of the FL process. This includes (1) specially designed parameter-efficient fine-tuning (PEFT) for local client training to enhance computational efficiency; (2) partial low-level adapter transmission for communication efficiency; and (3) similarity-guided collaborative aggregation (SGCA) on the server side to address non-IID issues. Extensive experiments on three FL benchmarks for medical image segmentation demonstrate the effectiveness of our proposed FedSCA, establishing new SOTA performance.

arxiv情報

著者 Yumin Zhang,Yan Gao,Haoran Duan,Hanqing Guo,Tejal Shah,Rajiv Ranjan,Bo Wei
発行日 2025-03-19 16:27:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | FedSCA: Federated Tuning with Similarity-guided Collaborative Aggregation for Heterogeneous Medical Image Segmentation はコメントを受け付けていません

Towards efficient keyword spotting using spike-based time difference encoders

要約

音声活性化アシスタントが広く使用されているため、エッジデバイスでのキーワードスポッティングがますます重要になっています。
ただし、その展開は、ターゲット組み込みシステムの極端な低電力制約によって制限されることがよくあります。
ここでは、キーワードスポッティングで時間差エンコーダー(TDE)パフォーマンスを調べます。
この最近のニューロンモデルは、瞬間周波数とスパイクカウントの時差をコードして、神経形成プロセッサで効率的なキーワードスポッティングを実行します。
フォーマント分解とスパイクへのレートベースのエンコードを使用して、音声桁のTidigitsデータセットを使用します。
3つのスパイキングニューラルネットワーク(SNNS)アーキテクチャを比較して、時空間信号を学習および分類します。
提案されているSNNアーキテクチャは、(1)フィードフォワードTDE、(2)フィードフォワードの電流ベースの漏れのある統合と発射(キューバ-lif)、または(3)再発キューバ-lifニューロンで構成される隠された層の変動を伴う3つの層で構成されています。
最初に、周波数が変換された桁のスパイク列車が時間領域に大量の情報を持っていることを示し、そのようなタスクの時間エンコードをより適切に活用することの重要性を強化します。
次に、同じ数のシナプス重みで3つのSNNをトレーニングして、精度とシナプス操作に基づいてパフォーマンスを定量化および比較します。
Feedforward TDEネットワーク(89%)の結果として得られる精度は、Feedforward Cuba-Lifネットワーク(71%)よりも高く、再発キューバ-Lifネットワーク(91%)に近いです。
ただし、FeedForward TDEベースのネットワークは、同じ量のシナプスを持つ再発キューバLIFネットワークよりも92%少ないシナプス操作を実行します。
さらに、TDEネットワークの結果は非常に解釈可能であり、データセット内の音声キーワードの頻度とタイムスケールの特徴と相関しています。
私たちの調査結果は、TDEが、時空間パターンのスケーラブルなイベント駆動型処理のための有望なニューロンモデルであることを示唆しています。

要約(オリジナル)

Keyword spotting in edge devices is becoming increasingly important as voice-activated assistants are widely used. However, its deployment is often limited by the extreme low-power constraints of the target embedded systems. Here, we explore the Temporal Difference Encoder (TDE) performance in keyword spotting. This recent neuron model encodes the time difference in instantaneous frequency and spike count to perform efficient keyword spotting with neuromorphic processors. We use the TIdigits dataset of spoken digits with a formant decomposition and rate-based encoding into spikes. We compare three Spiking Neural Networks (SNNs) architectures to learn and classify spatio-temporal signals. The proposed SNN architectures are made of three layers with variation in its hidden layer composed of either (1) feedforward TDE, (2) feedforward Current-Based Leaky Integrate-and-Fire (CuBa-LIF), or (3) recurrent CuBa-LIF neurons. We first show that the spike trains of the frequency-converted spoken digits have a large amount of information in the temporal domain, reinforcing the importance of better exploiting temporal encoding for such a task. We then train the three SNNs with the same number of synaptic weights to quantify and compare their performance based on the accuracy and synaptic operations. The resulting accuracy of the feedforward TDE network (89%) is higher than the feedforward CuBa-LIF network (71%) and close to the recurrent CuBa-LIF network (91%). However, the feedforward TDE-based network performs 92% fewer synaptic operations than the recurrent CuBa-LIF network with the same amount of synapses. In addition, the results of the TDE network are highly interpretable and correlated with the frequency and timescale features of the spoken keywords in the dataset. Our findings suggest that the TDE is a promising neuron model for scalable event-driven processing of spatio-temporal patterns.

arxiv情報

著者 Alejandro Pequeño-Zurro,Lyes Khacef,Stefano Panzeri,Elisabetta Chicca
発行日 2025-03-19 16:43:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.ET, cs.NE | Towards efficient keyword spotting using spike-based time difference encoders はコメントを受け付けていません

Improving Adversarial Transferability on Vision Transformers via Forward Propagation Refinement

要約

ビジョントランス(VIT)は、さまざまなコンピュータービジョンおよびビジョン言語タスクに広く適用されています。
実際のシナリオでの堅牢性に関する洞察を得るために、vitsの移転可能な敵対例が広範囲に研究されています。
敵対的な移動性を改善するための典型的なアプローチは、代理モデルを改善することです。
ただし、VITに関する既存の作業により、代理洗練が後方伝播に制限されています。
この作業では、代わりに前方伝播の洗練(FPR)に焦点を当て、注意マップとトークンの埋め込みという2つの重要なモジュールを具体的に改善します。
注意マップについては、注意マップの多様化(AMD)を提案します。これは、特定の注意マップを多様化し、背面伝播中に有益な勾配消失を暗黙的に課します。
トークンの埋め込みについては、Momentum Token Embedding(MTE)を提案します。これは、履歴トークンの埋め込みを蓄積して、注意ブロックとMLPブロックの両方の前方更新を安定させます。
私たちは、VITからさまざまなCNNSおよびVITに転送された敵対的な例を使用して広範な実験を行い、FPRが現在の最高の(後方)代理洗練を平均で最大7.0 \%上回ることを示しています。
また、人気のある防衛に対する優位性と、他の転送方法との互換性を検証します。
コードと付録は、https://github.com/ryc-98/fprで入手できます。

要約(オリジナル)

Vision Transformers (ViTs) have been widely applied in various computer vision and vision-language tasks. To gain insights into their robustness in practical scenarios, transferable adversarial examples on ViTs have been extensively studied. A typical approach to improving adversarial transferability is by refining the surrogate model. However, existing work on ViTs has restricted their surrogate refinement to backward propagation. In this work, we instead focus on Forward Propagation Refinement (FPR) and specifically refine two key modules of ViTs: attention maps and token embeddings. For attention maps, we propose Attention Map Diversification (AMD), which diversifies certain attention maps and also implicitly imposes beneficial gradient vanishing during backward propagation. For token embeddings, we propose Momentum Token Embedding (MTE), which accumulates historical token embeddings to stabilize the forward updates in both the Attention and MLP blocks. We conduct extensive experiments with adversarial examples transferred from ViTs to various CNNs and ViTs, demonstrating that our FPR outperforms the current best (backward) surrogate refinement by up to 7.0\% on average. We also validate its superiority against popular defenses and its compatibility with other transfer methods. Codes and appendix are available at https://github.com/RYC-98/FPR.

arxiv情報

著者 Yuchen Ren,Zhengyu Zhao,Chenhao Lin,Bo Yang,Lu Zhou,Zhe Liu,Chao Shen
発行日 2025-03-19 16:44:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV | Improving Adversarial Transferability on Vision Transformers via Forward Propagation Refinement はコメントを受け付けていません

Visual Persona: Foundation Model for Full-Body Human Customization

要約

Text-to-Imageのフルボディの人間のカスタマイズの基礎モデルであるVisual Personaを紹介します。これは、単一の内部の人間の画像を考慮して、テキストの説明によって導かれた個々の多様な画像を生成します。
顔のアイデンティティの保存に焦点を当てた以前の方法とは異なり、私たちのアプローチは、身体の構造とシーンのバリエーションのテキストの説明に合わせて、詳細な全身の外観をキャプチャします。
このモデルのトレーニングには、一貫した全身アイデンティティを持つ個人あたりの複数の画像で構成される大規模なペアのヒトデータが必要であり、これを取得するのは難しいことで有名です。
これに対処するために、Vision-Languageモデルを活用するデータキュレーションパイプラインを提案して、全身の外観の一貫性を評価し、100Kユニークなアイデンティティにわたって580Kペアのヒト画像のデータセットである視覚的なペルソナ-500Kになります。
正確な外観転送のために、入力画像を明確なボディ領域に増強し、局所的な外観の特徴としてこれらの領域をエンコードし、カスタマイズされた画像を合成するための拡散モデルを条件付けるためにこれらの領域を独立して投影するために、これらの領域を個別の領域にエンコードするトランスフォーマーエンコーダデコーダーアーキテクチャを導入します。
視覚的なペルソナは、既存のアプローチを一貫して上回り、野生の入力から高品質でカスタマイズされた画像を生成します。
広範なアブレーション研究では、設計の選択肢が検証され、さまざまな下流タスクにわたる視覚的なペルソナの汎用性を実証します。

要約(オリジナル)

We introduce Visual Persona, a foundation model for text-to-image full-body human customization that, given a single in-the-wild human image, generates diverse images of the individual guided by text descriptions. Unlike prior methods that focus solely on preserving facial identity, our approach captures detailed full-body appearance, aligning with text descriptions for body structure and scene variations. Training this model requires large-scale paired human data, consisting of multiple images per individual with consistent full-body identities, which is notoriously difficult to obtain. To address this, we propose a data curation pipeline leveraging vision-language models to evaluate full-body appearance consistency, resulting in Visual Persona-500K, a dataset of 580k paired human images across 100k unique identities. For precise appearance transfer, we introduce a transformer encoder-decoder architecture adapted to a pre-trained text-to-image diffusion model, which augments the input image into distinct body regions, encodes these regions as local appearance features, and projects them into dense identity embeddings independently to condition the diffusion model for synthesizing customized images. Visual Persona consistently surpasses existing approaches, generating high-quality, customized images from in-the-wild inputs. Extensive ablation studies validate design choices, and we demonstrate the versatility of Visual Persona across various downstream tasks.

arxiv情報

著者 Jisu Nam,Soowon Son,Zhan Xu,Jing Shi,Difan Liu,Feng Liu,Aashish Misraa,Seungryong Kim,Yang Zhou
発行日 2025-03-19 16:45:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Visual Persona: Foundation Model for Full-Body Human Customization はコメントを受け付けていません

Learn Your Scales: Towards Scale-Consistent Generative Novel View Synthesis

要約

従来の深さのないマルチビューデータセットは、メトリックキャリブレーションなしで動く単眼カメラを使用してキャプチャされます。
The scales of camera positions in this monocular setting are ambiguous.
以前の方法では、さまざまなアドホック正規化前処理手順を介してマルチビューデータのスケールのあいまいさが認められていますが、アプリケーションに対する誤ったシーンスケールの効果を直接分析していません。
この論文では、生成的な新規ビュー合成方法(GNV)を訓練するために使用される場合、スケールのあいまいさの効果を理解し、対処しようとしています。
GNVSでは、シーンまたはオブジェクトの新しいビューは、単一の画像を考慮して最小限に合成でき、したがって、生成方法の使用を必要とします。
これらのモデルの生成性は、タスクの迷惑変数として機能するシーンスケールの不確実性を含む、不確実性のすべての側面をキャプチャします。
結果のモデルに対する効果を分離することにより、単一の画像からサンプリングされた場合、GNVのシーンスケールのあいまいさの効果を研究し、これらの直感に基づいて、生成されたビューのスケールの不一致を測定する新しいメトリックを定義します。
次に、GNVSモデルと共同でシーンスケールをエンドツーエンドの方法で推定するためのフレームワークを提案します。
経験的に、私たちの方法は、以前のスケール正規化方法の複雑さや欠点なしに生成されたビューのスケールの矛盾を低下させることを示します。
さらに、このあいまいさを削除すると、結果のGNVSモデルの生成された画質が向上することを示します。

要約(オリジナル)

Conventional depth-free multi-view datasets are captured using a moving monocular camera without metric calibration. The scales of camera positions in this monocular setting are ambiguous. Previous methods have acknowledged scale ambiguity in multi-view data via various ad-hoc normalization pre-processing steps, but have not directly analyzed the effect of incorrect scene scales on their application. In this paper, we seek to understand and address the effect of scale ambiguity when used to train generative novel view synthesis methods (GNVS). In GNVS, new views of a scene or object can be minimally synthesized given a single image and are, thus, unconstrained, necessitating the use of generative methods. The generative nature of these models captures all aspects of uncertainty, including any uncertainty of scene scales, which act as nuisance variables for the task. We study the effect of scene scale ambiguity in GNVS when sampled from a single image by isolating its effect on the resulting models and, based on these intuitions, define new metrics that measure the scale inconsistency of generated views. We then propose a framework to estimate scene scales jointly with the GNVS model in an end-to-end fashion. Empirically, we show that our method reduces the scale inconsistency of generated views without the complexity or downsides of previous scale normalization methods. Further, we show that removing this ambiguity improves generated image quality of the resulting GNVS model.

arxiv情報

著者 Fereshteh Forghani,Jason J. Yu,Tristan Aumentado-Armstrong,Konstantinos G. Derpanis,Marcus A. Brubaker
発行日 2025-03-19 16:56:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Learn Your Scales: Towards Scale-Consistent Generative Novel View Synthesis はコメントを受け付けていません

Federated Continual 3D Segmentation With Single-round Communication

要約

Federated Learningは、ローカルデータのプライバシーを維持しながら、分散クライアント間のコラボレーションを促進しようとしています。
伝統的に、フェデレーションの学習方法は、クライアントのデータと学習目標が一定のままである固定設定を想定しています。
ただし、実際のシナリオでは、新しいクライアントが参加し、既存のクライアントがタスク要件が進化するにつれてセグメンテーションラベルセットを拡張する場合があります。
このような動的なフェデレーション分析のセットアップでは、通信ラウンドごとのモデル集約の従来のフェデレーションコミュニケーション戦略は最適です。
新しいクライアントが参加するにつれて、この戦略には再訓練が必要であり、通信と計算のオーバーヘッドを直線的に増加させます。
また、同期された通信の要件を課します。これは、分散クライアント間で達成することが困難です。
この論文では、マルチモデル蒸留を通じてサーバーでの1回限りのモデル集約を採用するフェデレーション継続的な学習戦略を提案します。
このアプローチは、頻繁なサーバー通信の必要性を排除しながら、グローバルモデルを構築および更新します。
新しいデータストリームを統合したり、新しいクライアントをオンボーディングしたりする場合、このアプローチは以前のクライアントモデルを効率的に再利用し、連邦全体でグローバルモデルを再訓練する必要性を回避します。
通信負荷を最小限に抑え、変更されていないクライアントをオンラインで配置する必要性をバイパスすることにより、当社のアプローチはクライアント間で同期要件を緩和し、実際のアプリケーションに適した効率的でスケーラブルなフェデレーション分析フレームワークを提供します。
アプリケーションタスクとしてマルチクラス3D腹部CTセグメンテーションを使用して、提案されたアプローチの有効性を実証します。

要約(オリジナル)

Federated learning seeks to foster collaboration among distributed clients while preserving the privacy of their local data. Traditionally, federated learning methods assume a fixed setting in which client data and learning objectives remain constant. However, in real-world scenarios, new clients may join, and existing clients may expand the segmentation label set as task requirements evolve. In such a dynamic federated analysis setup, the conventional federated communication strategy of model aggregation per communication round is suboptimal. As new clients join, this strategy requires retraining, linearly increasing communication and computation overhead. It also imposes requirements for synchronized communication, which is difficult to achieve among distributed clients. In this paper, we propose a federated continual learning strategy that employs a one-time model aggregation at the server through multi-model distillation. This approach builds and updates the global model while eliminating the need for frequent server communication. When integrating new data streams or onboarding new clients, this approach efficiently reuses previous client models, avoiding the need to retrain the global model across the entire federation. By minimizing communication load and bypassing the need to put unchanged clients online, our approach relaxes synchronization requirements among clients, providing an efficient and scalable federated analysis framework suited for real-world applications. Using multi-class 3D abdominal CT segmentation as an application task, we demonstrate the effectiveness of the proposed approach.

arxiv情報

著者 Can Peng,Qianhui Men,Pramit Saha,Qianye Yang,Cheng Ouyang,J. Alison Noble
発行日 2025-03-19 16:56:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Federated Continual 3D Segmentation With Single-round Communication はコメントを受け付けていません

Automated Processing of eXplainable Artificial Intelligence Outputs in Deep Learning Models for Fault Diagnostics of Large Infrastructures

要約

Deep Learning(DL)モデル画像を処理して、大規模なインフラストラクチャコンポーネントの健康状態を認識することができます。バイアスを示し、非因果ショートカットに依存します。
説明可能な人工知能(XAI)はこれらの問題に対処できますが、XAI技術によって生成された説明を手動で分析することは時間がかかり、エラーが発生しやすくなります。
この作業は、事後の説明と半監視学習を組み合わせて、正しく分類された画像の説明から逸脱する異常な説明を自動的に特定するため、モデル異常な行動を示す可能性のある新しいフレームワークを提案します。
これにより、メンテナンスの意思決定者のワークロードが大幅に削減されます。意思決定者は、異常な説明を持っているとフラグを立てた画像を手動で再分類する必要があります。
提案されたフレームワークは、2つの異なる畳み込みニューラルネットワーク(CNNS)、GRADCAMの説明、および深い半監視の異常検出を考慮して、電力グリッドインフラストラクチャモニタリング用の絶縁体シェルのドローン収集画像に適用されます。
2つの故障したクラスの平均分類精度は8%改善され、メンテナンスオペレーターは画像の15%のみを手動で再分類するために必要です。
提案されたフレームワークを、忠実さの指標に基づいた最先端のアプローチと比較します。得られた実験結果は、提案されたフレームワークが忠実なアプローチのスコアよりも大きなF_1スコアを一貫して達成することを示しています。
さらに、提案されたフレームワークは、絶縁体シェルに印刷されたIDタグの存在など、非腸のショートカットに起因する正しい分類を正常に識別します。

要約(オリジナル)

Deep Learning (DL) models processing images to recognize the health state of large infrastructure components can exhibit biases and rely on non-causal shortcuts. eXplainable Artificial Intelligence (XAI) can address these issues but manually analyzing explanations generated by XAI techniques is time-consuming and prone to errors. This work proposes a novel framework that combines post-hoc explanations with semi-supervised learning to automatically identify anomalous explanations that deviate from those of correctly classified images and may therefore indicate model abnormal behaviors. This significantly reduces the workload for maintenance decision-makers, who only need to manually reclassify images flagged as having anomalous explanations. The proposed framework is applied to drone-collected images of insulator shells for power grid infrastructure monitoring, considering two different Convolutional Neural Networks (CNNs), GradCAM explanations and Deep Semi-Supervised Anomaly Detection. The average classification accuracy on two faulty classes is improved by 8% and maintenance operators are required to manually reclassify only 15% of the images. We compare the proposed framework with a state-of-the-art approach based on the faithfulness metric: the experimental results obtained demonstrate that the proposed framework consistently achieves F_1 scores larger than those of the faithfulness-based approach. Additionally, the proposed framework successfully identifies correct classifications that result from non-causal shortcuts, such as the presence of ID tags printed on insulator shells.

arxiv情報

著者 Giovanni Floreale,Piero Baraldi,Enrico Zio,Olga Fink
発行日 2025-03-19 16:57:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Automated Processing of eXplainable Artificial Intelligence Outputs in Deep Learning Models for Fault Diagnostics of Large Infrastructures はコメントを受け付けていません

Temporal Regularization Makes Your Video Generator Stronger

要約

一時的な品質は、フレーム全体で一貫した動きと現実的なダイナミクスを保証するため、ビデオ生成の重要な側面です。
しかし、高い時間的一貫性と多様性を達成することは依然として困難です。
この作業では、ビデオ生成の時間的増強を初めて探索し、一時的な品質を向上させるために設計された戦略である最初の調査のためにFluxflowを導入します。
データレベルで動作するFluxFlowは、建築の変更を必要とせずに制御された時間的摂動を適用します。
UCF-101およびVbenchベンチマークに関する広範な実験は、FluxflowがU-NET、DIT、ARベースのアーキテクチャを含むさまざまなビデオ生成モデルの時間的一貫性と多様性を大幅に改善し、空間的忠実度を維持することを示しています。
これらの発見は、ビデオ生成品質を高めるためのシンプルで効果的なアプローチとしての時間的増強の可能性を強調しています。

要約(オリジナル)

Temporal quality is a critical aspect of video generation, as it ensures consistent motion and realistic dynamics across frames. However, achieving high temporal coherence and diversity remains challenging. In this work, we explore temporal augmentation in video generation for the first time, and introduce FluxFlow for initial investigation, a strategy designed to enhance temporal quality. Operating at the data level, FluxFlow applies controlled temporal perturbations without requiring architectural modifications. Extensive experiments on UCF-101 and VBench benchmarks demonstrate that FluxFlow significantly improves temporal coherence and diversity across various video generation models, including U-Net, DiT, and AR-based architectures, while preserving spatial fidelity. These findings highlight the potential of temporal augmentation as a simple yet effective approach to advancing video generation quality.

arxiv情報

著者 Harold Haodong Chen,Haojian Huang,Xianfeng Wu,Yexin Liu,Yajing Bai,Wen-Jie Shu,Harry Yang,Ser-Nam Lim
発行日 2025-03-19 16:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Temporal Regularization Makes Your Video Generator Stronger はコメントを受け付けていません

LIFT: Latent Implicit Functions for Task- and Data-Agnostic Encoding

要約

暗黙の神経表現(INR)は、多様なデータドメイン全体でタスクモデリングを統合する上で強力なパラダイムであることが証明されており、メモリ効率や解像度の独立性などの重要な利点を提供します。
従来の深い学習モデルは通常、モダリティ依存性であり、多くの場合、さまざまな種類の信号に対してカスタムアーキテクチャと目標が必要です。
ただし、既存のINRフレームワークは、グローバルな潜在性のベクトルに依存することがよくあるか、より幅広い適用性を制限する計算の非効率性を示します。
Meta-Learningを通じてマルチスケール情報をキャプチャすることにより、これらの課題に対処する斬新で高性能のフレームワークであるLiftを紹介します。
リフトは、階層的潜在ジェネレーターと一緒に複数の平行な局所的な暗黙的関数をレバレッジし、ローカル、中間、およびグローバルな特徴に及ぶ統一された潜在表現を生成します。
このアーキテクチャは、ローカル地域間のスムーズな移行を促進し、推論効率を維持しながら表現力を高めます。
さらに、残留接続と表現力のある周波数エンコーディングを組み込んだリフトの強化されたバリアントであるReliftを紹介します。
この簡単なアプローチにより、Reliftは同等の方法で見つかった収束容量のギャップに効果的に対処し、容量を改善し、収束を高速化するための効率的で強力なソリューションを提供します。
経験的結果は、リフトが生成モデリングおよび分類タスクで最先端(SOTA)パフォーマンスを達成し、計算コストを顕著に削減することを示しています。
さらに、シングルタスクの設定では、合理化されたReliftアーキテクチャは、信号表現と逆問題タスクに効果的であることが証明されています。

要約(オリジナル)

Implicit Neural Representations (INRs) are proving to be a powerful paradigm in unifying task modeling across diverse data domains, offering key advantages such as memory efficiency and resolution independence. Conventional deep learning models are typically modality-dependent, often requiring custom architectures and objectives for different types of signals. However, existing INR frameworks frequently rely on global latent vectors or exhibit computational inefficiencies that limit their broader applicability. We introduce LIFT, a novel, high-performance framework that addresses these challenges by capturing multiscale information through meta-learning. LIFT leverages multiple parallel localized implicit functions alongside a hierarchical latent generator to produce unified latent representations that span local, intermediate, and global features. This architecture facilitates smooth transitions across local regions, enhancing expressivity while maintaining inference efficiency. Additionally, we introduce ReLIFT, an enhanced variant of LIFT that incorporates residual connections and expressive frequency encodings. With this straightforward approach, ReLIFT effectively addresses the convergence-capacity gap found in comparable methods, providing an efficient yet powerful solution to improve capacity and speed up convergence. Empirical results show that LIFT achieves state-of-the-art (SOTA) performance in generative modeling and classification tasks, with notable reductions in computational costs. Moreover, in single-task settings, the streamlined ReLIFT architecture proves effective in signal representations and inverse problem tasks.

arxiv情報

著者 Amirhossein Kazerouni,Soroush Mehraban,Michael Brudno,Babak Taati
発行日 2025-03-19 17:00:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | LIFT: Latent Implicit Functions for Task- and Data-Agnostic Encoding はコメントを受け付けていません

RMDM: Radio Map Diffusion Model with Physics Informed

要約

ワイヤレス通信技術の急速な発展に伴い、スペクトルリソースの効率的な利用、通信品質の最適化、およびインテリジェントコミュニケーションが重要になりました。
ラジオマップの再構築は、高度なアプリケーションを有効にするために不可欠ですが、複雑な信号伝播やまばらなデータなどの課題は正確な再構成を妨げます。
これらの問題に対処するために、**物理学に基づいたニューラルネットワーク(PINN)**を統合する物理学に基づいたフレームワークである**ラジオマップ拡散モデル(RMDM)**を提案します。
RMDMは、デュアルU-NETアーキテクチャを採用しています。1つ目は、PDE残差、境界条件、およびソースの制約を最小限に抑えることで物理的な一貫性を保証し、2番目の拡散ベースの除去を介して予測を改良します。
物理的法則を活用することにより、RMDMは精度、堅牢性、および一般化を大幅に向上させます。
実験は、RMDMが最先端の方法よりも優れていることを示しており、静的RM(SRM)設定の下で0.0031 **の** nmseおよび** rmseの0.0125 **、および0.0047 **の** nmseおよび** rmse 0.0146 **のダイナミックRM(DRM)設定で達成します。
これらの結果は、特にまばらなデータ条件下で、無線マップの再構築に物理情報に基づいたアプローチとデータ駆動型アプローチを統合するための新しいパラダイムを確立します。

要約(オリジナル)

With the rapid development of wireless communication technology, the efficient utilization of spectrum resources, optimization of communication quality, and intelligent communication have become critical. Radio map reconstruction is essential for enabling advanced applications, yet challenges such as complex signal propagation and sparse data hinder accurate reconstruction. To address these issues, we propose the **Radio Map Diffusion Model (RMDM)**, a physics-informed framework that integrates **Physics-Informed Neural Networks (PINNs)** to incorporate constraints like the **Helmholtz equation**. RMDM employs a dual U-Net architecture: the first ensures physical consistency by minimizing PDE residuals, boundary conditions, and source constraints, while the second refines predictions via diffusion-based denoising. By leveraging physical laws, RMDM significantly enhances accuracy, robustness, and generalization. Experiments demonstrate that RMDM outperforms state-of-the-art methods, achieving **NMSE of 0.0031** and **RMSE of 0.0125** under the Static RM (SRM) setting, and **NMSE of 0.0047** and **RMSE of 0.0146** under the Dynamic RM (DRM) setting. These results establish a novel paradigm for integrating physics-informed and data-driven approaches in radio map reconstruction, particularly under sparse data conditions.

arxiv情報

著者 Haozhe Jia,Wenshuo Chen,Zhihui Huang,Hongru Xiao,Nanqian Jia,Keming Wu,Songning Lai,Yutao Yue
発行日 2025-03-19 17:06:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RMDM: Radio Map Diffusion Model with Physics Informed はコメントを受け付けていません