Safety at Scale: A Comprehensive Survey of Large Model Safety

要約

大規模な事前トレーニングによる学習と一般化における並外れた能力によって推進される大規模なモデルの急速な進歩は、人工知能(AI)の景観を形作りました。
これらのモデルは現在、会話型AI、推奨システム、自律運転、コンテンツ生成、医療診断、科学的発見など、幅広いアプリケーションの基礎となっています。
しかし、彼らの広範な展開はまた、それらを重大な安全リスクにさらし、堅牢性、信頼性、倫理的意味についての懸念を引き起こします。
この調査では、Vision Foundationモデル(VFMS)、大規模な言語モデル(LLM)、ビジョン言語前トレーニング(VLP)モデル、ビジョン言語モデル(VLMS)、拡散モデル(DMS)、および大規模モデルベースのエージェントをカバーする大規模モデルに関する現在の安全研究の系統的レビューを提供します。
私たちの貢献は次のように要約されています。(1)敵対的攻撃、データ中毒、バックドア攻撃、脱獄および迅速な注入攻撃、エネルギー遅延攻撃、データとモデルの抽出攻撃、および新たなエージェント固有の脅威など、これらのモデルに対する安全性の脅威の包括的な分類法を提示します。
(2)利用可能な場合は、各タイプの攻撃について提案された防衛戦略を確認し、安全研究のために一般的に使用されるデータセットとベンチマークを要約します。
(3)これに基づいて、大規模なモデルの安全性におけるオープンな課題を特定し、議論し、包括的な安全評価、スケーラブルで効果的な防御メカニズム、および持続可能なデータプラクティスの必要性を強調します。
さらに重要なことは、研究コミュニティと国際的なコラボレーションからの集団的努力の必要性を強調しています。
私たちの仕事は、研究者と実践者にとって有用なリファレンスとして機能し、AIモデルを保護するための包括的な防衛システムとプラットフォームの継続的な開発を促進することができます。

要約(オリジナル)

The rapid advancement of large models, driven by their exceptional abilities in learning and generalization through large-scale pre-training, has reshaped the landscape of Artificial Intelligence (AI). These models are now foundational to a wide range of applications, including conversational AI, recommendation systems, autonomous driving, content generation, medical diagnostics, and scientific discovery. However, their widespread deployment also exposes them to significant safety risks, raising concerns about robustness, reliability, and ethical implications. This survey provides a systematic review of current safety research on large models, covering Vision Foundation Models (VFMs), Large Language Models (LLMs), Vision-Language Pre-training (VLP) models, Vision-Language Models (VLMs), Diffusion Models (DMs), and large-model-based Agents. Our contributions are summarized as follows: (1) We present a comprehensive taxonomy of safety threats to these models, including adversarial attacks, data poisoning, backdoor attacks, jailbreak and prompt injection attacks, energy-latency attacks, data and model extraction attacks, and emerging agent-specific threats. (2) We review defense strategies proposed for each type of attacks if available and summarize the commonly used datasets and benchmarks for safety research. (3) Building on this, we identify and discuss the open challenges in large model safety, emphasizing the need for comprehensive safety evaluations, scalable and effective defense mechanisms, and sustainable data practices. More importantly, we highlight the necessity of collective efforts from the research community and international collaboration. Our work can serve as a useful reference for researchers and practitioners, fostering the ongoing development of comprehensive defense systems and platforms to safeguard AI models.

arxiv情報

著者 Xingjun Ma,Yifeng Gao,Yixu Wang,Ruofan Wang,Xin Wang,Ye Sun,Yifan Ding,Hengyuan Xu,Yunhao Chen,Yunhan Zhao,Hanxun Huang,Yige Li,Jiaming Zhang,Xiang Zheng,Yang Bai,Zuxuan Wu,Xipeng Qiu,Jingfeng Zhang,Yiming Li,Xudong Han,Haonan Li,Jun Sun,Cong Wang,Jindong Gu,Baoyuan Wu,Siheng Chen,Tianwei Zhang,Yang Liu,Mingming Gong,Tongliang Liu,Shirui Pan,Cihang Xie,Tianyu Pang,Yinpeng Dong,Ruoxi Jia,Yang Zhang,Shiqing Ma,Xiangyu Zhang,Neil Gong,Chaowei Xiao,Sarah Erfani,Tim Baldwin,Bo Li,Masashi Sugiyama,Dacheng Tao,James Bailey,Yu-Gang Jiang
発行日 2025-03-19 16:10:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.CV | Safety at Scale: A Comprehensive Survey of Large Model Safety はコメントを受け付けていません

Manual Labelling Artificially Inflates Deep Learning-Based Segmentation Performance on RGB Images of Closed Canopy: Validation Using TLS

要約

個々の樹木スケールでの森林ダイナミクスの監視は、気候変動に対する生態系の反応を正確に評価するために不可欠ですが、フィールドベースの森林在庫に依存する従来の方法は労働集約的であり、空間的なカバレッジが制限されています。
ドローンで獲得したRGB画像を使用したリモートセンシングの進歩と深い学習モデルと組み合わせて、正確な個々のツリークラウン(ITC)セグメンテーションを約束しました。
ただし、既存の方法は、人間が注目した画像に対して頻繁に検証されていますが、厳密な独立したグラウンドトゥルースがありません。
この研究では、混合されていない北方林と地中海の森林のドローン画像のための、共同配置された陸生レーザースキャン(TLS)データから高忠実度検証ラベルを生成します。
これらのデータで、広く使用されている2つのディープラーニングITCセグメンテーションモデル(Deepforest(Retinanet)とDetectree2(Mask R -CNN))のパフォーマンスを評価し、手動でラベル付けされたさらなる地中海の森林データのパフォーマンスと比較します。
地中海の森林からのTLS由来のグラウンドトゥルースに対して検証された場合、生態学的に類似したサイトからの手標識に基づく評価と比較して、モデルのパフォーマンスは大幅に減少しました(AP50:0.094対0.670)。
キャノピーツリーのみに評価を制限することは、このギャップを大幅に縮小しました(Canopy AP50:0.365)が、パフォーマンスは同様の手で覆われたデータよりもはるかに低かった。
また、モデルは北方の森林データではあまり機能しませんでした(AP50:0.142)が、天蓋木のみで評価されると再び増加します(Canopy AP50:0.308)。
両方のモデルは、キャノピーツリーに制限されている場合でも、より厳格なIOUしきい値で非常に不十分な局所化精度を示しました(Max AP75:0.051)。
航空用ライダーデータを使用した研究でも同様の結果が観察されており、閉じた天蓋森林における空中ベースのセグメンテーションアプローチの基本的な制限を示唆しています。

要約(オリジナル)

Monitoring forest dynamics at an individual tree scale is essential for accurately assessing ecosystem responses to climate change, yet traditional methods relying on field-based forest inventories are labor-intensive and limited in spatial coverage. Advances in remote sensing using drone-acquired RGB imagery combined with deep learning models have promised precise individual tree crown (ITC) segmentation; however, existing methods are frequently validated against human-annotated images, lacking rigorous independent ground truth. In this study, we generate high-fidelity validation labels from co-located Terrestrial Laser Scanning (TLS) data for drone imagery of mixed unmanaged boreal and Mediterranean forests. We evaluate the performance of two widely used deep learning ITC segmentation models – DeepForest (RetinaNet) and Detectree2 (Mask R-CNN) – on these data, and compare to performance on further Mediterranean forest data labelled manually. When validated against TLS-derived ground truth from Mediterranean forests, model performance decreased significantly compared to assessment based on hand-labelled from an ecologically similar site (AP50: 0.094 vs. 0.670). Restricting evaluation to only canopy trees shrank this gap considerably (Canopy AP50: 0.365), although performance was still far lower than on similar hand-labelled data. Models also performed poorly on boreal forest data (AP50: 0.142), although again increasing when evaluated on canopy trees only (Canopy AP50: 0.308). Both models showed very poor localisation accuracy at stricter IoU thresholds, even when restricted to canopy trees (Max AP75: 0.051). Similar results have been observed in studies using aerial LiDAR data, suggesting fundamental limitations in aerial-based segmentation approaches in closed canopy forests.

arxiv情報

著者 Matthew J. Allen,Harry J. F. Owen,Stuart W. D. Grieve,Emily R. Lines
発行日 2025-03-19 16:17:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, I.4 | Manual Labelling Artificially Inflates Deep Learning-Based Segmentation Performance on RGB Images of Closed Canopy: Validation Using TLS はコメントを受け付けていません

FedSCA: Federated Tuning with Similarity-guided Collaborative Aggregation for Heterogeneous Medical Image Segmentation

要約

トランスベースの基礎モデル(FMS)は最近、医療画像のセグメンテーションにおける顕著なパフォーマンスを実証しています。
ただし、プライバシーの懸念によりデータの集中化が制限されている孤立した病院内の医療画像データセットが限られているため、これらのモデルをスケーリングすることは困難です。
これらの制約は、FMSのデータ集約的な性質と組み合わせて、より広いアプリケーションを妨げます。
Federated Learning(FL)とFoundation Models(FLFM)の微調整は、データ共有なしで共同モデルトレーニングを可能にすることにより、これらの課題に対する潜在的なソリューションを提供し、FMSが病院/クライアント全体で敏感な医療画像データの多様なプールを利用できるようにします。
ただし、クライアント間で非独立した同一に分散した(非IID)データは、連合環境での計算および通信の制約と組み合わせて、さらなるパフォーマンスの改善を制限し、既存の研究では不十分に対処されたままの追加の課題を提示します。
この作業では、新しいFLFM微調整フレームワークを提案します。
FLプロセスのすべてのフェーズを含む。
これには、(1)計算効率を高めるためのローカルクライアントトレーニング用の特別に設計されたパラメーター効率の高い微調整(PEFT)が含まれます。
(2)通信効率のための部分的な低レベルのアダプター伝送。
(3)非IIDの問題に対処するために、サーバー側の類似性誘導コラボレーション集約(SGCA)。
医療画像セグメンテーションのための3つのFLベンチマークでの広範な実験は、提案されたFEDSCAの有効性を示しており、新しいSOTAパフォーマンスを確立しています。

要約(オリジナル)

Transformer-based foundation models (FMs) have recently demonstrated remarkable performance in medical image segmentation. However, scaling these models is challenging due to the limited size of medical image datasets within isolated hospitals, where data centralization is restricted due to privacy concerns. These constraints, combined with the data-intensive nature of FMs, hinder their broader application. Integrating federated learning (FL) with foundation models (FLFM) fine-tuning offers a potential solution to these challenges by enabling collaborative model training without data sharing, thus allowing FMs to take advantage of a diverse pool of sensitive medical image data across hospitals/clients. However, non-independent and identically distributed (non-IID) data among clients, paired with computational and communication constraints in federated environments, presents an additional challenge that limits further performance improvements and remains inadequately addressed in existing studies. In this work, we propose a novel FLFM fine-tuning framework, \underline{\textbf{Fed}}erated tuning with \underline{\textbf{S}}imilarity-guided \underline{\textbf{C}}ollaborative \underline{\textbf{A}}ggregation (FedSCA), encompassing all phases of the FL process. This includes (1) specially designed parameter-efficient fine-tuning (PEFT) for local client training to enhance computational efficiency; (2) partial low-level adapter transmission for communication efficiency; and (3) similarity-guided collaborative aggregation (SGCA) on the server side to address non-IID issues. Extensive experiments on three FL benchmarks for medical image segmentation demonstrate the effectiveness of our proposed FedSCA, establishing new SOTA performance.

arxiv情報

著者 Yumin Zhang,Yan Gao,Haoran Duan,Hanqing Guo,Tejal Shah,Rajiv Ranjan,Bo Wei
発行日 2025-03-19 16:27:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | FedSCA: Federated Tuning with Similarity-guided Collaborative Aggregation for Heterogeneous Medical Image Segmentation はコメントを受け付けていません

Towards efficient keyword spotting using spike-based time difference encoders

要約

音声活性化アシスタントが広く使用されているため、エッジデバイスでのキーワードスポッティングがますます重要になっています。
ただし、その展開は、ターゲット組み込みシステムの極端な低電力制約によって制限されることがよくあります。
ここでは、キーワードスポッティングで時間差エンコーダー(TDE)パフォーマンスを調べます。
この最近のニューロンモデルは、瞬間周波数とスパイクカウントの時差をコードして、神経形成プロセッサで効率的なキーワードスポッティングを実行します。
フォーマント分解とスパイクへのレートベースのエンコードを使用して、音声桁のTidigitsデータセットを使用します。
3つのスパイキングニューラルネットワーク(SNNS)アーキテクチャを比較して、時空間信号を学習および分類します。
提案されているSNNアーキテクチャは、(1)フィードフォワードTDE、(2)フィードフォワードの電流ベースの漏れのある統合と発射(キューバ-lif)、または(3)再発キューバ-lifニューロンで構成される隠された層の変動を伴う3つの層で構成されています。
最初に、周波数が変換された桁のスパイク列車が時間領域に大量の情報を持っていることを示し、そのようなタスクの時間エンコードをより適切に活用することの重要性を強化します。
次に、同じ数のシナプス重みで3つのSNNをトレーニングして、精度とシナプス操作に基づいてパフォーマンスを定量化および比較します。
Feedforward TDEネットワーク(89%)の結果として得られる精度は、Feedforward Cuba-Lifネットワーク(71%)よりも高く、再発キューバ-Lifネットワーク(91%)に近いです。
ただし、FeedForward TDEベースのネットワークは、同じ量のシナプスを持つ再発キューバLIFネットワークよりも92%少ないシナプス操作を実行します。
さらに、TDEネットワークの結果は非常に解釈可能であり、データセット内の音声キーワードの頻度とタイムスケールの特徴と相関しています。
私たちの調査結果は、TDEが、時空間パターンのスケーラブルなイベント駆動型処理のための有望なニューロンモデルであることを示唆しています。

要約(オリジナル)

Keyword spotting in edge devices is becoming increasingly important as voice-activated assistants are widely used. However, its deployment is often limited by the extreme low-power constraints of the target embedded systems. Here, we explore the Temporal Difference Encoder (TDE) performance in keyword spotting. This recent neuron model encodes the time difference in instantaneous frequency and spike count to perform efficient keyword spotting with neuromorphic processors. We use the TIdigits dataset of spoken digits with a formant decomposition and rate-based encoding into spikes. We compare three Spiking Neural Networks (SNNs) architectures to learn and classify spatio-temporal signals. The proposed SNN architectures are made of three layers with variation in its hidden layer composed of either (1) feedforward TDE, (2) feedforward Current-Based Leaky Integrate-and-Fire (CuBa-LIF), or (3) recurrent CuBa-LIF neurons. We first show that the spike trains of the frequency-converted spoken digits have a large amount of information in the temporal domain, reinforcing the importance of better exploiting temporal encoding for such a task. We then train the three SNNs with the same number of synaptic weights to quantify and compare their performance based on the accuracy and synaptic operations. The resulting accuracy of the feedforward TDE network (89%) is higher than the feedforward CuBa-LIF network (71%) and close to the recurrent CuBa-LIF network (91%). However, the feedforward TDE-based network performs 92% fewer synaptic operations than the recurrent CuBa-LIF network with the same amount of synapses. In addition, the results of the TDE network are highly interpretable and correlated with the frequency and timescale features of the spoken keywords in the dataset. Our findings suggest that the TDE is a promising neuron model for scalable event-driven processing of spatio-temporal patterns.

arxiv情報

著者 Alejandro Pequeño-Zurro,Lyes Khacef,Stefano Panzeri,Elisabetta Chicca
発行日 2025-03-19 16:43:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.ET, cs.NE | Towards efficient keyword spotting using spike-based time difference encoders はコメントを受け付けていません

Improving Adversarial Transferability on Vision Transformers via Forward Propagation Refinement

要約

ビジョントランス(VIT)は、さまざまなコンピュータービジョンおよびビジョン言語タスクに広く適用されています。
実際のシナリオでの堅牢性に関する洞察を得るために、vitsの移転可能な敵対例が広範囲に研究されています。
敵対的な移動性を改善するための典型的なアプローチは、代理モデルを改善することです。
ただし、VITに関する既存の作業により、代理洗練が後方伝播に制限されています。
この作業では、代わりに前方伝播の洗練(FPR)に焦点を当て、注意マップとトークンの埋め込みという2つの重要なモジュールを具体的に改善します。
注意マップについては、注意マップの多様化(AMD)を提案します。これは、特定の注意マップを多様化し、背面伝播中に有益な勾配消失を暗黙的に課します。
トークンの埋め込みについては、Momentum Token Embedding(MTE)を提案します。これは、履歴トークンの埋め込みを蓄積して、注意ブロックとMLPブロックの両方の前方更新を安定させます。
私たちは、VITからさまざまなCNNSおよびVITに転送された敵対的な例を使用して広範な実験を行い、FPRが現在の最高の(後方)代理洗練を平均で最大7.0 \%上回ることを示しています。
また、人気のある防衛に対する優位性と、他の転送方法との互換性を検証します。
コードと付録は、https://github.com/ryc-98/fprで入手できます。

要約(オリジナル)

Vision Transformers (ViTs) have been widely applied in various computer vision and vision-language tasks. To gain insights into their robustness in practical scenarios, transferable adversarial examples on ViTs have been extensively studied. A typical approach to improving adversarial transferability is by refining the surrogate model. However, existing work on ViTs has restricted their surrogate refinement to backward propagation. In this work, we instead focus on Forward Propagation Refinement (FPR) and specifically refine two key modules of ViTs: attention maps and token embeddings. For attention maps, we propose Attention Map Diversification (AMD), which diversifies certain attention maps and also implicitly imposes beneficial gradient vanishing during backward propagation. For token embeddings, we propose Momentum Token Embedding (MTE), which accumulates historical token embeddings to stabilize the forward updates in both the Attention and MLP blocks. We conduct extensive experiments with adversarial examples transferred from ViTs to various CNNs and ViTs, demonstrating that our FPR outperforms the current best (backward) surrogate refinement by up to 7.0\% on average. We also validate its superiority against popular defenses and its compatibility with other transfer methods. Codes and appendix are available at https://github.com/RYC-98/FPR.

arxiv情報

著者 Yuchen Ren,Zhengyu Zhao,Chenhao Lin,Bo Yang,Lu Zhou,Zhe Liu,Chao Shen
発行日 2025-03-19 16:44:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV | Improving Adversarial Transferability on Vision Transformers via Forward Propagation Refinement はコメントを受け付けていません

Visual Persona: Foundation Model for Full-Body Human Customization

要約

Text-to-Imageのフルボディの人間のカスタマイズの基礎モデルであるVisual Personaを紹介します。これは、単一の内部の人間の画像を考慮して、テキストの説明によって導かれた個々の多様な画像を生成します。
顔のアイデンティティの保存に焦点を当てた以前の方法とは異なり、私たちのアプローチは、身体の構造とシーンのバリエーションのテキストの説明に合わせて、詳細な全身の外観をキャプチャします。
このモデルのトレーニングには、一貫した全身アイデンティティを持つ個人あたりの複数の画像で構成される大規模なペアのヒトデータが必要であり、これを取得するのは難しいことで有名です。
これに対処するために、Vision-Languageモデルを活用するデータキュレーションパイプラインを提案して、全身の外観の一貫性を評価し、100Kユニークなアイデンティティにわたって580Kペアのヒト画像のデータセットである視覚的なペルソナ-500Kになります。
正確な外観転送のために、入力画像を明確なボディ領域に増強し、局所的な外観の特徴としてこれらの領域をエンコードし、カスタマイズされた画像を合成するための拡散モデルを条件付けるためにこれらの領域を独立して投影するために、これらの領域を個別の領域にエンコードするトランスフォーマーエンコーダデコーダーアーキテクチャを導入します。
視覚的なペルソナは、既存のアプローチを一貫して上回り、野生の入力から高品質でカスタマイズされた画像を生成します。
広範なアブレーション研究では、設計の選択肢が検証され、さまざまな下流タスクにわたる視覚的なペルソナの汎用性を実証します。

要約(オリジナル)

We introduce Visual Persona, a foundation model for text-to-image full-body human customization that, given a single in-the-wild human image, generates diverse images of the individual guided by text descriptions. Unlike prior methods that focus solely on preserving facial identity, our approach captures detailed full-body appearance, aligning with text descriptions for body structure and scene variations. Training this model requires large-scale paired human data, consisting of multiple images per individual with consistent full-body identities, which is notoriously difficult to obtain. To address this, we propose a data curation pipeline leveraging vision-language models to evaluate full-body appearance consistency, resulting in Visual Persona-500K, a dataset of 580k paired human images across 100k unique identities. For precise appearance transfer, we introduce a transformer encoder-decoder architecture adapted to a pre-trained text-to-image diffusion model, which augments the input image into distinct body regions, encodes these regions as local appearance features, and projects them into dense identity embeddings independently to condition the diffusion model for synthesizing customized images. Visual Persona consistently surpasses existing approaches, generating high-quality, customized images from in-the-wild inputs. Extensive ablation studies validate design choices, and we demonstrate the versatility of Visual Persona across various downstream tasks.

arxiv情報

著者 Jisu Nam,Soowon Son,Zhan Xu,Jing Shi,Difan Liu,Feng Liu,Aashish Misraa,Seungryong Kim,Yang Zhou
発行日 2025-03-19 16:45:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Visual Persona: Foundation Model for Full-Body Human Customization はコメントを受け付けていません

Learn Your Scales: Towards Scale-Consistent Generative Novel View Synthesis

要約

従来の深さのないマルチビューデータセットは、メトリックキャリブレーションなしで動く単眼カメラを使用してキャプチャされます。
The scales of camera positions in this monocular setting are ambiguous.
以前の方法では、さまざまなアドホック正規化前処理手順を介してマルチビューデータのスケールのあいまいさが認められていますが、アプリケーションに対する誤ったシーンスケールの効果を直接分析していません。
この論文では、生成的な新規ビュー合成方法(GNV)を訓練するために使用される場合、スケールのあいまいさの効果を理解し、対処しようとしています。
GNVSでは、シーンまたはオブジェクトの新しいビューは、単一の画像を考慮して最小限に合成でき、したがって、生成方法の使用を必要とします。
これらのモデルの生成性は、タスクの迷惑変数として機能するシーンスケールの不確実性を含む、不確実性のすべての側面をキャプチャします。
結果のモデルに対する効果を分離することにより、単一の画像からサンプリングされた場合、GNVのシーンスケールのあいまいさの効果を研究し、これらの直感に基づいて、生成されたビューのスケールの不一致を測定する新しいメトリックを定義します。
次に、GNVSモデルと共同でシーンスケールをエンドツーエンドの方法で推定するためのフレームワークを提案します。
経験的に、私たちの方法は、以前のスケール正規化方法の複雑さや欠点なしに生成されたビューのスケールの矛盾を低下させることを示します。
さらに、このあいまいさを削除すると、結果のGNVSモデルの生成された画質が向上することを示します。

要約(オリジナル)

Conventional depth-free multi-view datasets are captured using a moving monocular camera without metric calibration. The scales of camera positions in this monocular setting are ambiguous. Previous methods have acknowledged scale ambiguity in multi-view data via various ad-hoc normalization pre-processing steps, but have not directly analyzed the effect of incorrect scene scales on their application. In this paper, we seek to understand and address the effect of scale ambiguity when used to train generative novel view synthesis methods (GNVS). In GNVS, new views of a scene or object can be minimally synthesized given a single image and are, thus, unconstrained, necessitating the use of generative methods. The generative nature of these models captures all aspects of uncertainty, including any uncertainty of scene scales, which act as nuisance variables for the task. We study the effect of scene scale ambiguity in GNVS when sampled from a single image by isolating its effect on the resulting models and, based on these intuitions, define new metrics that measure the scale inconsistency of generated views. We then propose a framework to estimate scene scales jointly with the GNVS model in an end-to-end fashion. Empirically, we show that our method reduces the scale inconsistency of generated views without the complexity or downsides of previous scale normalization methods. Further, we show that removing this ambiguity improves generated image quality of the resulting GNVS model.

arxiv情報

著者 Fereshteh Forghani,Jason J. Yu,Tristan Aumentado-Armstrong,Konstantinos G. Derpanis,Marcus A. Brubaker
発行日 2025-03-19 16:56:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Learn Your Scales: Towards Scale-Consistent Generative Novel View Synthesis はコメントを受け付けていません

Federated Continual 3D Segmentation With Single-round Communication

要約

Federated Learningは、ローカルデータのプライバシーを維持しながら、分散クライアント間のコラボレーションを促進しようとしています。
伝統的に、フェデレーションの学習方法は、クライアントのデータと学習目標が一定のままである固定設定を想定しています。
ただし、実際のシナリオでは、新しいクライアントが参加し、既存のクライアントがタスク要件が進化するにつれてセグメンテーションラベルセットを拡張する場合があります。
このような動的なフェデレーション分析のセットアップでは、通信ラウンドごとのモデル集約の従来のフェデレーションコミュニケーション戦略は最適です。
新しいクライアントが参加するにつれて、この戦略には再訓練が必要であり、通信と計算のオーバーヘッドを直線的に増加させます。
また、同期された通信の要件を課します。これは、分散クライアント間で達成することが困難です。
この論文では、マルチモデル蒸留を通じてサーバーでの1回限りのモデル集約を採用するフェデレーション継続的な学習戦略を提案します。
このアプローチは、頻繁なサーバー通信の必要性を排除しながら、グローバルモデルを構築および更新します。
新しいデータストリームを統合したり、新しいクライアントをオンボーディングしたりする場合、このアプローチは以前のクライアントモデルを効率的に再利用し、連邦全体でグローバルモデルを再訓練する必要性を回避します。
通信負荷を最小限に抑え、変更されていないクライアントをオンラインで配置する必要性をバイパスすることにより、当社のアプローチはクライアント間で同期要件を緩和し、実際のアプリケーションに適した効率的でスケーラブルなフェデレーション分析フレームワークを提供します。
アプリケーションタスクとしてマルチクラス3D腹部CTセグメンテーションを使用して、提案されたアプローチの有効性を実証します。

要約(オリジナル)

Federated learning seeks to foster collaboration among distributed clients while preserving the privacy of their local data. Traditionally, federated learning methods assume a fixed setting in which client data and learning objectives remain constant. However, in real-world scenarios, new clients may join, and existing clients may expand the segmentation label set as task requirements evolve. In such a dynamic federated analysis setup, the conventional federated communication strategy of model aggregation per communication round is suboptimal. As new clients join, this strategy requires retraining, linearly increasing communication and computation overhead. It also imposes requirements for synchronized communication, which is difficult to achieve among distributed clients. In this paper, we propose a federated continual learning strategy that employs a one-time model aggregation at the server through multi-model distillation. This approach builds and updates the global model while eliminating the need for frequent server communication. When integrating new data streams or onboarding new clients, this approach efficiently reuses previous client models, avoiding the need to retrain the global model across the entire federation. By minimizing communication load and bypassing the need to put unchanged clients online, our approach relaxes synchronization requirements among clients, providing an efficient and scalable federated analysis framework suited for real-world applications. Using multi-class 3D abdominal CT segmentation as an application task, we demonstrate the effectiveness of the proposed approach.

arxiv情報

著者 Can Peng,Qianhui Men,Pramit Saha,Qianye Yang,Cheng Ouyang,J. Alison Noble
発行日 2025-03-19 16:56:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Federated Continual 3D Segmentation With Single-round Communication はコメントを受け付けていません

Automated Processing of eXplainable Artificial Intelligence Outputs in Deep Learning Models for Fault Diagnostics of Large Infrastructures

要約

Deep Learning(DL)モデル画像を処理して、大規模なインフラストラクチャコンポーネントの健康状態を認識することができます。バイアスを示し、非因果ショートカットに依存します。
説明可能な人工知能(XAI)はこれらの問題に対処できますが、XAI技術によって生成された説明を手動で分析することは時間がかかり、エラーが発生しやすくなります。
この作業は、事後の説明と半監視学習を組み合わせて、正しく分類された画像の説明から逸脱する異常な説明を自動的に特定するため、モデル異常な行動を示す可能性のある新しいフレームワークを提案します。
これにより、メンテナンスの意思決定者のワークロードが大幅に削減されます。意思決定者は、異常な説明を持っているとフラグを立てた画像を手動で再分類する必要があります。
提案されたフレームワークは、2つの異なる畳み込みニューラルネットワーク(CNNS)、GRADCAMの説明、および深い半監視の異常検出を考慮して、電力グリッドインフラストラクチャモニタリング用の絶縁体シェルのドローン収集画像に適用されます。
2つの故障したクラスの平均分類精度は8%改善され、メンテナンスオペレーターは画像の15%のみを手動で再分類するために必要です。
提案されたフレームワークを、忠実さの指標に基づいた最先端のアプローチと比較します。得られた実験結果は、提案されたフレームワークが忠実なアプローチのスコアよりも大きなF_1スコアを一貫して達成することを示しています。
さらに、提案されたフレームワークは、絶縁体シェルに印刷されたIDタグの存在など、非腸のショートカットに起因する正しい分類を正常に識別します。

要約(オリジナル)

Deep Learning (DL) models processing images to recognize the health state of large infrastructure components can exhibit biases and rely on non-causal shortcuts. eXplainable Artificial Intelligence (XAI) can address these issues but manually analyzing explanations generated by XAI techniques is time-consuming and prone to errors. This work proposes a novel framework that combines post-hoc explanations with semi-supervised learning to automatically identify anomalous explanations that deviate from those of correctly classified images and may therefore indicate model abnormal behaviors. This significantly reduces the workload for maintenance decision-makers, who only need to manually reclassify images flagged as having anomalous explanations. The proposed framework is applied to drone-collected images of insulator shells for power grid infrastructure monitoring, considering two different Convolutional Neural Networks (CNNs), GradCAM explanations and Deep Semi-Supervised Anomaly Detection. The average classification accuracy on two faulty classes is improved by 8% and maintenance operators are required to manually reclassify only 15% of the images. We compare the proposed framework with a state-of-the-art approach based on the faithfulness metric: the experimental results obtained demonstrate that the proposed framework consistently achieves F_1 scores larger than those of the faithfulness-based approach. Additionally, the proposed framework successfully identifies correct classifications that result from non-causal shortcuts, such as the presence of ID tags printed on insulator shells.

arxiv情報

著者 Giovanni Floreale,Piero Baraldi,Enrico Zio,Olga Fink
発行日 2025-03-19 16:57:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Automated Processing of eXplainable Artificial Intelligence Outputs in Deep Learning Models for Fault Diagnostics of Large Infrastructures はコメントを受け付けていません

Temporal Regularization Makes Your Video Generator Stronger

要約

一時的な品質は、フレーム全体で一貫した動きと現実的なダイナミクスを保証するため、ビデオ生成の重要な側面です。
しかし、高い時間的一貫性と多様性を達成することは依然として困難です。
この作業では、ビデオ生成の時間的増強を初めて探索し、一時的な品質を向上させるために設計された戦略である最初の調査のためにFluxflowを導入します。
データレベルで動作するFluxFlowは、建築の変更を必要とせずに制御された時間的摂動を適用します。
UCF-101およびVbenchベンチマークに関する広範な実験は、FluxflowがU-NET、DIT、ARベースのアーキテクチャを含むさまざまなビデオ生成モデルの時間的一貫性と多様性を大幅に改善し、空間的忠実度を維持することを示しています。
これらの発見は、ビデオ生成品質を高めるためのシンプルで効果的なアプローチとしての時間的増強の可能性を強調しています。

要約(オリジナル)

Temporal quality is a critical aspect of video generation, as it ensures consistent motion and realistic dynamics across frames. However, achieving high temporal coherence and diversity remains challenging. In this work, we explore temporal augmentation in video generation for the first time, and introduce FluxFlow for initial investigation, a strategy designed to enhance temporal quality. Operating at the data level, FluxFlow applies controlled temporal perturbations without requiring architectural modifications. Extensive experiments on UCF-101 and VBench benchmarks demonstrate that FluxFlow significantly improves temporal coherence and diversity across various video generation models, including U-Net, DiT, and AR-based architectures, while preserving spatial fidelity. These findings highlight the potential of temporal augmentation as a simple yet effective approach to advancing video generation quality.

arxiv情報

著者 Harold Haodong Chen,Haojian Huang,Xianfeng Wu,Yexin Liu,Yajing Bai,Wen-Jie Shu,Harry Yang,Ser-Nam Lim
発行日 2025-03-19 16:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Temporal Regularization Makes Your Video Generator Stronger はコメントを受け付けていません