Multi-Fidelity Policy Gradient Algorithms

要約

多くの強化学習(RL)アルゴリズムには大量のデータが必要であり、運用システムとの頻繁な相互作用が実行不可能である、または高忠実度のシミュレーションが高価または利用できないアプリケーションでの使用を禁止する必要があります。
一方、低忠実度のシミュレータ(低秩序モデル、ヒューリスティックな報酬機能、または生成世界モデルなど)は、直接的なSIMからリアルへの転送には粗すぎても、RLトレーニングに有用なデータを安価に提供します。
ターゲット環境からの少量のデータを大量の低忠実度シミュレーションデータと組み合わせて、ポリック前のポリシーグラデーションの偏りのない減少推定値(コントロールバリエート)を形成するRLフレームワークである多忠実度ポリシーグラデーション(MFPG)を提案します。
2つのポリシーグラデーションアルゴリズムの多忠実度バリアントを開発することにより、フレームワークをインスタンス化します:強化と近位ポリシーの最適化。
一連のシミュレートされたロボットベンチマークの問題にわたる実験結果は、ターゲット環境サンプルが制限されている場合、MFPGが高忠実度データのみを使用するベースラインと比較して最大3.9倍高い報酬を達成し、トレーニングの安定性を改善することを示しています。
さらに、ターゲット環境との多くの相互作用が多いため、ベースラインにより多くの忠実度サンプルが10倍まで与えられた場合でも、MFPGは引き続きそれらを一致または上回ります。
最後に、MFPGは、低忠実度環境がターゲット環境と劇的に異なる場合でも、効果的なポリシーをトレーニングできることを観察します。
したがって、MFPGは、効率的なSIMからリアルへの転送のための新しいパラダイムを提供するだけでなく、ポリシーのパフォーマンスとデータ収集コストのトレードオフを管理するための原則的なアプローチも提供します。

要約(オリジナル)

Many reinforcement learning (RL) algorithms require large amounts of data, prohibiting their use in applications where frequent interactions with operational systems are infeasible, or high-fidelity simulations are expensive or unavailable. Meanwhile, low-fidelity simulators–such as reduced-order models, heuristic reward functions, or generative world models–can cheaply provide useful data for RL training, even if they are too coarse for direct sim-to-real transfer. We propose multi-fidelity policy gradients (MFPGs), an RL framework that mixes a small amount of data from the target environment with a large volume of low-fidelity simulation data to form unbiased, reduced-variance estimators (control variates) for on-policy policy gradients. We instantiate the framework by developing multi-fidelity variants of two policy gradient algorithms: REINFORCE and proximal policy optimization. Experimental results across a suite of simulated robotics benchmark problems demonstrate that when target-environment samples are limited, MFPG achieves up to 3.9x higher reward and improves training stability when compared to baselines that only use high-fidelity data. Moreover, even when the baselines are given more high-fidelity samples–up to 10x as many interactions with the target environment–MFPG continues to match or outperform them. Finally, we observe that MFPG is capable of training effective policies even when the low-fidelity environment is drastically different from the target environment. MFPG thus not only offers a novel paradigm for efficient sim-to-real transfer but also provides a principled approach to managing the trade-off between policy performance and data collection costs.

arxiv情報

著者 Xinjie Liu,Cyrus Neary,Kushagra Gupta,Christian Ellis,Ufuk Topcu,David Fridovich-Keil
発行日 2025-03-07 18:58:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Multi-Fidelity Policy Gradient Algorithms はコメントを受け付けていません

RS-vHeat: Heat Conduction Guided Efficient Remote Sensing Foundation Model

要約

リモートセンシングファンデーションモデルは、タスク固有のモデルを設計するという従来のパラダイムから大きく脱却し、複数のタスクでより大きなスケーラビリティを提供します。
ただし、特に大規模なリモートセンシング画像を扱う場合、計算効率が低く、解釈可能性が限られているなどの課題に直面しています。
これらを克服するために、局所熱拡散をモデル化する物理的プロセスである熱伝導からインスピレーションを引き出します。
このアイデアに基づいて、私たちは熱伝導の並列コンピューティングモデルを使用して、高解像度のリモートセンシング画像のローカル領域相関をシミュレートし、効率的なマルチモーダルリモートセンシングファンデーションモデルであるRS-Vheatを導入する可能性を最初に調査しました。
具体的には、rs-vheat 1)$ o(n^{1.5})$の複雑さで熱伝導演算子(HCO)を適用し、グローバル受容フィールドで計算オーバーヘッドを減らしながら、リモートセンシングオブジェクト構造情報をキャプチャして熱拡散を誘導します。
2)周波数ドメインの階層マスキングとマルチドメインの再構築に基づいた自己監視戦略を通じて、さまざまなシーンの頻度分布表現を学習します。
3)4つのタスクと10のデータセットにわたる最先端のテクニックよりも効率とパフォーマンスを大幅に向上させます。
注意ベースのリモートセンシングファンデーションモデルと比較して、メモリの使用量を84 \%、24 \%減少させ、スループットを2.7倍改善します。
コードは公開されます。

要約(オリジナル)

Remote sensing foundation models largely break away from the traditional paradigm of designing task-specific models, offering greater scalability across multiple tasks. However, they face challenges such as low computational efficiency and limited interpretability, especially when dealing with large-scale remote sensing images. To overcome these, we draw inspiration from heat conduction, a physical process modeling local heat diffusion. Building on this idea, we are the first to explore the potential of using the parallel computing model of heat conduction to simulate the local region correlations in high-resolution remote sensing images, and introduce RS-vHeat, an efficient multi-modal remote sensing foundation model. Specifically, RS-vHeat 1) applies the Heat Conduction Operator (HCO) with a complexity of $O(N^{1.5})$ and a global receptive field, reducing computational overhead while capturing remote sensing object structure information to guide heat diffusion; 2) learns the frequency distribution representations of various scenes through a self-supervised strategy based on frequency domain hierarchical masking and multi-domain reconstruction; 3) significantly improves efficiency and performance over state-of-the-art techniques across 4 tasks and 10 datasets. Compared to attention-based remote sensing foundation models, we reduce memory usage by 84\%, FLOPs by 24\% and improves throughput by 2.7 times. The code will be made publicly available.

arxiv情報

著者 Huiyang Hu,Peijin Wang,Hanbo Bi,Boyuan Tong,Zhaozhi Wang,Wenhui Diao,Hao Chang,Yingchao Feng,Ziqi Zhang,Yaowei Wang,Qixiang Ye,Kun Fu,Xian Sun
発行日 2025-03-07 13:24:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RS-vHeat: Heat Conduction Guided Efficient Remote Sensing Foundation Model はコメントを受け付けていません

Analysis of the BraTS 2023 Intracranial Meningioma Segmentation Challenge

要約

Brats 2023頭蓋内髄膜腫セグメンテーションチャレンジの設計と結果について説明します。
ブラッツ髄膜腫の課題は、髄膜腫に焦点を当てたという点で、以前のブラット神経膠腫の課題とは異なりました。これは、多様な放射線症および解剖学的症状と多重性の傾向を備えた良性軸外腫瘍です。
9つの参加チームは、それぞれ、最大の多施設の系統的専門家の注釈付きマルチシーケンス髄膜腫MRIデータセットの画像データを使用して、1000のトレーニングセットケース、141検証セットケース、283の隠しテストセットケースを含む、深部学習自動化セグメンテーションモデルを開発しました。
各症例には、T2、FLAIR、T1、およびT1GD脳MRIシーケンスが関連する腫瘍のラベルを持つT1GD脳MRI配列が含まれており、腫瘍の強化、非強化腫瘍、および周囲の非強化炎の高強度を描写しました。
参加者の自動セグメンテーションモデルは、サイコロの類似性係数(DSC)および95%のHausdorff距離を含む病変ごとのメトリックを評価するスコアリングシステムに基づいて評価およびランク付けされました。
トップランクのチームは、腫瘍、腫瘍コア、および腫瘍全体をそれぞれ促進するために、それぞれ0.976、0.976、および0.964の病変ごとのサイコロ類似性係数(DSC)の中央値の中央値類似性係数(DSC)を有し、それぞれ0.899、0.904、および0.871の対応する平均DSCがありました。
これらの結果は、将来の術前髄膜腫自動化セグメンテーションアルゴリズムの最先端のベンチマークとして機能します。
さらに、1424件の症例の1286(90.3%)が少なくとも1つのコンパートメントボクセルに、頭蓋骨が伸びた画像エッジの端に隣接していることがわかりました。

要約(オリジナル)

We describe the design and results from the BraTS 2023 Intracranial Meningioma Segmentation Challenge. The BraTS Meningioma Challenge differed from prior BraTS Glioma challenges in that it focused on meningiomas, which are typically benign extra-axial tumors with diverse radiologic and anatomical presentation and a propensity for multiplicity. Nine participating teams each developed deep-learning automated segmentation models using image data from the largest multi-institutional systematically expert annotated multilabel multi-sequence meningioma MRI dataset to date, which included 1000 training set cases, 141 validation set cases, and 283 hidden test set cases. Each case included T2, FLAIR, T1, and T1Gd brain MRI sequences with associated tumor compartment labels delineating enhancing tumor, non-enhancing tumor, and surrounding non-enhancing FLAIR hyperintensity. Participant automated segmentation models were evaluated and ranked based on a scoring system evaluating lesion-wise metrics including dice similarity coefficient (DSC) and 95% Hausdorff Distance. The top ranked team had a lesion-wise median dice similarity coefficient (DSC) of 0.976, 0.976, and 0.964 for enhancing tumor, tumor core, and whole tumor, respectively and a corresponding average DSC of 0.899, 0.904, and 0.871, respectively. These results serve as state-of-the-art benchmarks for future pre-operative meningioma automated segmentation algorithms. Additionally, we found that 1286 of 1424 cases (90.3%) had at least 1 compartment voxel abutting the edge of the skull-stripped image edge, which requires further investigation into optimal pre-processing face anonymization steps.

arxiv情報

著者 Dominic LaBella,Ujjwal Baid,Omaditya Khanna,Shan McBurney-Lin,Ryan McLean,Pierre Nedelec,Arif Rashid,Nourel Hoda Tahon,Talissa Altes,Radhika Bhalerao,Yaseen Dhemesh,Devon Godfrey,Fathi Hilal,Scott Floyd,Anastasia Janas,Anahita Fathi Kazerooni,John Kirkpatrick,Collin Kent,Florian Kofler,Kevin Leu,Nazanin Maleki,Bjoern Menze,Maxence Pajot,Zachary J. Reitman,Jeffrey D. Rudie,Rachit Saluja,Yury Velichko,Chunhao Wang,Pranav Warman,Maruf Adewole,Jake Albrecht,Udunna Anazodo,Syed Muhammad Anwar,Timothy Bergquist,Sully Francis Chen,Verena Chung,Rong Chai,Gian-Marco Conte,Farouk Dako,James Eddy,Ivan Ezhov,Nastaran Khalili,Juan Eugenio Iglesias,Zhifan Jiang,Elaine Johanson,Koen Van Leemput,Hongwei Bran Li,Marius George Linguraru,Xinyang Liu,Aria Mahtabfar,Zeke Meier,Ahmed W. Moawad,John Mongan,Marie Piraud,Russell Takeshi Shinohara,Walter F. Wiggins,Aly H. Abayazeed,Rachel Akinola,András Jakab,Michel Bilello,Maria Correia de Verdier,Priscila Crivellaro,Christos Davatzikos,Keyvan Farahani,John Freymann,Christopher Hess,Raymond Huang,Philipp Lohmann,Mana Moassefi,Matthew W. Pease,Phillipp Vollmuth,Nico Sollmann,David Diffley,Khanak K. Nandolia,Daniel I. Warren,Ali Hussain,Pascal Fehringer,Yulia Bronstein,Lisa Deptula,Evan G. Stein,Mahsa Taherzadeh,Eduardo Portela de Oliveira,Aoife Haughey,Marinos Kontzialis,Luca Saba,Benjamin Turner,Melanie M. T. Brüßeler,Shehbaz Ansari,Athanasios Gkampenis,David Maximilian Weiss,Aya Mansour,Islam H. Shawali,Nikolay Yordanov,Joel M. Stein,Roula Hourani,Mohammed Yahya Moshebah,Ahmed Magdy Abouelatta,Tanvir Rizvi,Klara Willms,Dann C. Martin,Abdullah Okar,Gennaro D’Anna,Ahmed Taha,Yasaman Sharifi,Shahriar Faghani,Dominic Kite,Marco Pinho,Muhammad Ammar Haider,Alejandro Aristizabal,Alexandros Karargyris,Hasan Kassem,Sarthak Pati,Micah Sheller,Michelle Alonso-Basanta,Javier Villanueva-Meyer,Andreas M. Rauschecker,Ayman Nada,Mariam Aboian,Adam E. Flanders,Benedikt Wiestler,Spyridon Bakas,Evan Calabrese
発行日 2025-03-07 13:25:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | Analysis of the BraTS 2023 Intracranial Meningioma Segmentation Challenge はコメントを受け付けていません

A Simple and Generalist Approach for Panoptic Segmentation

要約

パノプティックセグメンテーションは重要なコンピュータービジョンタスクです。この場合、現在の最先端のソリューションでは、パフォーマンスを発揮するために特殊なコンポーネントが必要です。
ピクセルごとの予測を備えたディープエンコーダー – 浅いデコーダーアーキテクチャに基づいて、シンプルなジェネラリストフレームワークを提案します。
本質的に、最小限の追加コンポーネントを備えた非常に優先される画像モデルを微調整します。
素朴にこの方法では良い結果が得られません。
これは、トレーニング中の不均衡によるものであり、スペクトル位置埋め込みの空間での重心回帰を減らすための新しい方法を提案します。
私たちの方法は、挑戦的なMS-COCOデータセットで55.1のパノプティック品質(PQ)を達成します。

要約(オリジナル)

Panoptic segmentation is an important computer vision task, where the current state-of-the-art solutions require specialized components to perform well. We propose a simple generalist framework based on a deep encoder – shallow decoder architecture with per-pixel prediction. Essentially fine-tuning a massively pretrained image model with minimal additional components. Naively this method does not yield good results. We show that this is due to imbalance during training and propose a novel method for reducing it – centroid regression in the space of spectral positional embeddings. Our method achieves panoptic quality (PQ) of 55.1 on the challenging MS-COCO dataset, state-of-the-art performance among generalist methods.

arxiv情報

著者 Nedyalko Prisadnikov,Wouter Van Gansbeke,Danda Pani Paudel,Luc Van Gool
発行日 2025-03-07 13:26:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Simple and Generalist Approach for Panoptic Segmentation はコメントを受け付けていません

Revisiting the Generalization Problem of Low-level Vision Models Through the Lens of Image Deraining

要約

一般化は、低レベルのビジョンモデルにとって重要な課題であり、制御されたベンチマークで成功したにもかかわらず、現実世界のシナリオでは目に見えない劣化に苦労していることがよくあります。
この論文では、低レベルの視覚モデルの一般化問題を再検討します。
画像由来は、その明確に定義され、簡単に分離された構造のためにケーススタディとして選択され、より効果的な観察と分析が可能になります。
包括的な実験を通じて、一般化の問題は主にネットワーク容量が限られているのではなく、既存のトレーニング戦略の失敗によるものであることを明らかにします。
私たちの調査結果は、劣化パターンではなく、基礎となる画像コンテンツの学習に集中するためのガイドネットワークが一般化を改善するための鍵であることを示しています。
トレーニングデータの背景画像と劣化の複雑さのバランスをとることで、ネットワークが画像の分布に適合することを実証します。
さらに、事前に訓練された生成モデルからコンテンツプリエを組み込むと、一般化が大幅に向上します。
画像由来と画像除去の両方での実験は、提案された戦略を検証します。
洞察とソリューションは、さらなる研究を促し、低レベルの視覚モデルの一般化を改善すると考えています。

要約(オリジナル)

Generalization remains a significant challenge for low-level vision models, which often struggle with unseen degradations in real-world scenarios despite their success in controlled benchmarks. In this paper, we revisit the generalization problem in low-level vision models. Image deraining is selected as a case study due to its well-defined and easily decoupled structure, allowing for more effective observation and analysis. Through comprehensive experiments, we reveal that the generalization issue is not primarily due to limited network capacity but rather the failure of existing training strategies, which leads networks to overfit specific degradation patterns. Our findings show that guiding networks to focus on learning the underlying image content, rather than the degradation patterns, is key to improving generalization. We demonstrate that balancing the complexity of background images and degradations in the training data helps networks better fit the image distribution. Furthermore, incorporating content priors from pre-trained generative models significantly enhances generalization. Experiments on both image deraining and image denoising validate the proposed strategies. We believe the insights and solutions will inspire further research and improve the generalization of low-level vision models.

arxiv情報

著者 Jinfan Hu,Zhiyuan You,Jinjin Gu,Kaiwen Zhu,Tianfan Xue,Chao Dong
発行日 2025-03-07 13:26:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Revisiting the Generalization Problem of Low-level Vision Models Through the Lens of Image Deraining はコメントを受け付けていません

Toward Robust Non-Transferable Learning: A Survey and Benchmark

要約

過去数十年にわたり、研究者は主にモデルの一般化能力の改善に焦点を当ててきました。
ただし、モデルが意図しないデータ(たとえば、有害または不正データ)に一般化する能力は、予期せぬ敵によって悪用され、モデル倫理に違反する可能性があります。
これらの課題に対処するために、ディープラーニングモデルの一般化能力を再構築することを目的としたタスクである非譲渡可能な学習(NTL)が提案されました。
この分野では多数の方法が提案されていますが、既存の進捗状況の包括的なレビューと現在の制限の徹底的な分析は残っています。
このホワイトペーパーでは、NTLに関する最初の包括的な調査を提示し、統一されたフレームワーク内でNTLのパフォーマンスと堅牢性を評価する最初のベンチマークであるNTLBenchを導入することにより、このギャップを埋めます。
具体的には、最初にNTLのタスク設定、一般的なフレームワーク、および基準を紹介し、その後NTLアプローチの概要を紹介します。
さらに、NTLによって確立された譲渡不可能なメカニズムを破壊する可能性のあるさまざまな攻撃に対する堅牢性の頻繁に見過ごされている問題を強調します。
NTLBenchを介して実施された実験では、既存のNTLメソッドの制限が堅牢性を確認します。
最後に、NTLの実用的なアプリケーションと、その将来の方向性と関連する課題について説明します。

要約(オリジナル)

Over the past decades, researchers have primarily focused on improving the generalization abilities of models, with limited attention given to regulating such generalization. However, the ability of models to generalize to unintended data (e.g., harmful or unauthorized data) can be exploited by malicious adversaries in unforeseen ways, potentially resulting in violations of model ethics. Non-transferable learning (NTL), a task aimed at reshaping the generalization abilities of deep learning models, was proposed to address these challenges. While numerous methods have been proposed in this field, a comprehensive review of existing progress and a thorough analysis of current limitations remain lacking. In this paper, we bridge this gap by presenting the first comprehensive survey on NTL and introducing NTLBench, the first benchmark to evaluate NTL performance and robustness within a unified framework. Specifically, we first introduce the task settings, general framework, and criteria of NTL, followed by a summary of NTL approaches. Furthermore, we emphasize the often-overlooked issue of robustness against various attacks that can destroy the non-transferable mechanism established by NTL. Experiments conducted via NTLBench verify the limitations of existing NTL methods in robustness. Finally, we discuss the practical applications of NTL, along with its future directions and associated challenges.

arxiv情報

著者 Ziming Hong,Yongli Xiang,Tongliang Liu
発行日 2025-03-07 13:45:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG | Toward Robust Non-Transferable Learning: A Survey and Benchmark はコメントを受け付けていません

Semantic Shift Estimation via Dual-Projection and Classifier Reconstruction for Exemplar-Free Class-Incremental Learning

要約

模範を含まないクラスインクリメンタル学習(EFCIL)は、模範を保持することなく、明確なカテゴリから順次学習することを目的としていますが、学習した知識の壊滅的な忘却に容易に苦しむことを目的としています。
既存のEFCILメソッドは、忘却を軽減するために知識の蒸留を活用していますが、セマンティックシフトと決定バイアスという2つの重要な課題に依然として直面しています。
具体的には、古いタスクの埋め込みは、新しいタスクを学習した後に埋め込み空間にシフトし、分類器は新しいデータだけでトレーニングするために新しいタスクに偏り、それにより古い知識と新しい知識のバランスを妨げます。
これらの問題に対処するために、EFCILのデュアルプロジェクションシフト推定および分類器再構成(DPCR)アプローチを提案します。
DPCRは、学習可能な変換と行空間投影を組み合わせて、タスクごとの変換とカテゴリごとのシフトの両方をキャプチャするデュアルプロジェクションを介したセマンティックシフトを効果的に推定します。
さらに、意思決定バイアスを緩和するために、DPCRはリッジ回帰を使用して、再構成プロセスとして分類器トレーニングを再定式化します。
この再構成は、推定シフトでキャリブレーション後に各クラスの共分散とプロトタイプでエンコードされた以前の情報を活用し、それにより決定バイアスを減らします。
広範な実験は、さまざまなデータセットで、DPCRが古いタスクと新しいタスクのバランスを効果的にバランスさせ、最先端のEFCILメソッドを上回ることを示しています。

要約(オリジナル)

Exemplar-Free Class-Incremental Learning (EFCIL) aims to sequentially learn from distinct categories without retaining exemplars but easily suffers from catastrophic forgetting of learned knowledge. While existing EFCIL methods leverage knowledge distillation to alleviate forgetting, they still face two critical challenges: semantic shift and decision bias. Specifically, the embeddings of old tasks shift in the embedding space after learning new tasks, and the classifier becomes biased towards new tasks due to training solely with new data, thereby hindering the balance between old and new knowledge. To address these issues, we propose the Dual-Projection Shift Estimation and Classifier Reconstruction (DPCR) approach for EFCIL. DPCR effectively estimates semantic shift through a dual-projection, which combines a learnable transformation with a row-space projection to capture both task-wise and category-wise shifts. Furthermore, to mitigate decision bias, DPCR employs ridge regression to reformulate classifier training as a reconstruction process. This reconstruction exploits previous information encoded in covariance and prototype of each class after calibration with estimated shift, thereby reducing decision bias. Extensive experiments demonstrate that, across various datasets, DPCR effectively balances old and new tasks, outperforming state-of-the-art EFCIL methods.

arxiv情報

著者 Run He,Di Fang,Yicheng Xu,Yawen Cui,Ming Li,Cen Chen,Ziqian Zeng,Huiping Zhuang
発行日 2025-03-07 13:50:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Semantic Shift Estimation via Dual-Projection and Classifier Reconstruction for Exemplar-Free Class-Incremental Learning はコメントを受け付けていません

Towards Locally Explaining Prediction Behavior via Gradual Interventions and Measuring Property Gradients

要約

ディープラーニングモデルは高い予測パフォーマンスを達成しますが、本質的な解釈性を欠いており、学習した予測行動の理解を妨げます。
既存のローカル説明方法は、モデル予測の因果的要因を無視して、関連性に焦点を当てています。
他のアプローチは因果的な視点を採用していますが、主により一般的なグローバルな説明を提供します。
ただし、特定の入力については、グローバルに特定された要因が局所的に適用されるかどうかは不明です。
この制限に対処するために、画像間編集モデルの最近の進歩を活用することにより、局所介入の説明のための新しいフレームワークを紹介します。
私たちのアプローチは、セマンティックプロパティに関する段階的な介入を実行して、新しいスコアである予想されるプロパティグラデーションの大きさを使用して、モデルの予測に対する対応する影響を定量化します。
幅広いアーキテクチャとタスクに対する広範な経験的評価を通じて、アプローチの有効性を実証します。
まず、合成シナリオで検証し、バイアスを局所的に識別する能力を実証します。
その後、ネットワークトレーニングのダイナミクスを分析し、医療皮膚病変分類器を調査し、実際の介入データを使用した事前に訓練されたクリップモデルを研究するためのアプローチを適用します。
私たちの結果は、深いモデルの動作に関する新しい洞察を明らかにするために、プロパティレベルでの介入的説明の可能性を強調しています。

要約(オリジナル)

Deep learning models achieve high predictive performance but lack intrinsic interpretability, hindering our understanding of the learned prediction behavior. Existing local explainability methods focus on associations, neglecting the causal drivers of model predictions. Other approaches adopt a causal perspective but primarily provide more general global explanations. However, for specific inputs, it’s unclear whether globally identified factors apply locally. To address this limitation, we introduce a novel framework for local interventional explanations by leveraging recent advances in image-to-image editing models. Our approach performs gradual interventions on semantic properties to quantify the corresponding impact on a model’s predictions using a novel score, the expected property gradient magnitude. We demonstrate the effectiveness of our approach through an extensive empirical evaluation on a wide range of architectures and tasks. First, we validate it in a synthetic scenario and demonstrate its ability to locally identify biases. Afterward, we apply our approach to analyze network training dynamics, investigate medical skin lesion classifiers, and study a pre-trained CLIP model with real-life interventional data. Our results highlight the potential of interventional explanations on the property level to reveal new insights into the behavior of deep models.

arxiv情報

著者 Niklas Penzel,Joachim Denzler
発行日 2025-03-07 13:50:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Towards Locally Explaining Prediction Behavior via Gradual Interventions and Measuring Property Gradients はコメントを受け付けていません

MVCTrack: Boosting 3D Point Cloud Tracking via Multimodal-Guided Virtual Cues

要約

3Dシングルオブジェクトトラッキングは、自律運転とロボット工学に不可欠です。
既存の方法は、多くの場合、まばらで不完全なポイントクラウドシナリオに苦しんでいます。
これらの制限に対処するために、スパースポイントクラウドを濃縮する仮想キューを生成するマルチモーダル誘導仮想キュープロジェクション(MVCP)スキームを提案します。
さらに、生成された仮想キューに基づいて、強化されたトラッカーMVCTrackを導入します。
具体的には、MVCPスキームはRGBセンサーをLIDARベースのシステムにシームレスに統合し、一連の2D検出を活用して、ポイントクラウドのスパース性を大幅に改善する密な3D仮想キューを作成します。
これらの仮想キューは、既存のLIDARベースの3Dトラッカーと自然に統合でき、実質的なパフォーマンスの向上をもたらします。
広範な実験は、我々の方法がヌスセンデータセットで競争力のあるパフォーマンスを達成することを示しています。

要約(オリジナル)

3D single object tracking is essential in autonomous driving and robotics. Existing methods often struggle with sparse and incomplete point cloud scenarios. To address these limitations, we propose a Multimodal-guided Virtual Cues Projection (MVCP) scheme that generates virtual cues to enrich sparse point clouds. Additionally, we introduce an enhanced tracker MVCTrack based on the generated virtual cues. Specifically, the MVCP scheme seamlessly integrates RGB sensors into LiDAR-based systems, leveraging a set of 2D detections to create dense 3D virtual cues that significantly improve the sparsity of point clouds. These virtual cues can naturally integrate with existing LiDAR-based 3D trackers, yielding substantial performance gains. Extensive experiments demonstrate that our method achieves competitive performance on the NuScenes dataset.

arxiv情報

著者 Zhaofeng Hu,Sifan Zhou,Shibo Zhao,Zhihang Yuan
発行日 2025-03-07 14:21:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | MVCTrack: Boosting 3D Point Cloud Tracking via Multimodal-Guided Virtual Cues はコメントを受け付けていません

Vulnerabilities in AI-generated Image Detection: The Challenge of Adversarial Attacks

要約

特にGANおよび拡散モデルの出現による画像統合の最近の進歩は、偽情報の普及に関する一般的な懸念を増幅しました。
このような懸念に対処するために、多くのAIに生成された画像(AIGI)検出器が提案され、偽の画像を特定する上で有望なパフォーマンスを達成しました。
しかし、AIGI検出器の敵対的な堅牢性についての体系的な理解はまだありません。
この論文では、ホワイトボックスおよびブラックボックスの設定での敵対的攻撃に対する最先端のAIGI検出器の脆弱性を調べます。これはこれまで調査されていません。
この目的のために、AIGI検出器を攻撃する新しい方法を提案します。
まず、周波数ドメイン内の実際の画像と偽の画像の明らかな違いに触発されて、周波数ドメインの下に摂動を追加して、元の頻度分布から画像を押しのけます。
第二に、代理モデルの完全な後方分布を調査して、不均一なAIGI検出器間のこのギャップをさらに狭める、例えば
CNNとvitsに敵対例を転送します。
これは、単一の代理をベイジアンの代理人に変える新しいトレイン後のベイジアン戦略を導入することで達成され、再トレーニングを必要とせずに、1つの事前訓練を受けた代理を使用して多様な犠牲者モデルをシミュレートできます。
この方法では、周波数ベースのトレイン後のベイジアン攻撃、またはFPBAと名付けます。
FPBAを通じて、FPBAはAIGI検出器に対する真の脅威であることを示しています。FPBAは、モデル、ジェネレーター、防御方法を越えて成功したブラックボックス攻撃を提供し、重要な現実世界の検出シナリオであるクロスジェネレーター検出を回避できることを示しています。
コードは受け入れられると共有されます。

要約(オリジナル)

Recent advancements in image synthesis, particularly with the advent of GAN and Diffusion models, have amplified public concerns regarding the dissemination of disinformation. To address such concerns, numerous AI-generated Image (AIGI) Detectors have been proposed and achieved promising performance in identifying fake images. However, there still lacks a systematic understanding of the adversarial robustness of AIGI detectors. In this paper, we examine the vulnerability of state-of-the-art AIGI detectors against adversarial attack under white-box and black-box settings, which has been rarely investigated so far. To this end, we propose a new method to attack AIGI detectors. First, inspired by the obvious difference between real images and fake images in the frequency domain, we add perturbations under the frequency domain to push the image away from its original frequency distribution. Second, we explore the full posterior distribution of the surrogate model to further narrow this gap between heterogeneous AIGI detectors, e.g. transferring adversarial examples across CNNs and ViTs. This is achieved by introducing a novel post-train Bayesian strategy that turns a single surrogate into a Bayesian one, capable of simulating diverse victim models using one pre-trained surrogate, without the need for re-training. We name our method as Frequency-based Post-train Bayesian Attack, or FPBA. Through FPBA, we show that adversarial attack is truly a real threat to AIGI detectors, because FPBA can deliver successful black-box attacks across models, generators, defense methods, and even evade cross-generator detection, which is a crucial real-world detection scenario. The code will be shared upon acceptance.

arxiv情報

著者 Yunfeng Diao,Naixin Zhai,Changtao Miao,Zitong Yu,Xingxing Wei,Xun Yang,Meng Wang
発行日 2025-03-07 14:28:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV | Vulnerabilities in AI-generated Image Detection: The Challenge of Adversarial Attacks はコメントを受け付けていません