Interpretability-Aware Vision Transformer

要約

ビジョントランス(VITS)は、さまざまなビジョンタスクを解くための顕著なモデルになっています。
ただし、VITの解釈可能性は、有望なパフォーマンスに対応していません。
VITSの出力を説明するために{\ It Post Hoc}ソリューションの開発に関心が高まっていますが、これらの方法は、さまざまなダウンストリームタスクやさまざまな変圧器アーキテクチャに一般化されません。
さらに、VITが指定されたデータで適切に訓練されておらず、関心領域に優先順位を付けない場合、{\ It Post Hoc}メソッドはあまり効果的ではありません。
別の{\ it Post Hoc}アプローチを開発する代わりに、モデルの解釈可能性を本質的に強化する新しいトレーニング手順を導入します。
私たちの解釈可能性対応のVIT(IA-vit)は、新鮮な洞察からインスピレーションを引き出します。クラスパッチと画像パッチの両方が、予測された分布と注意マップを一貫して生成します。
IA-vitは、解釈可能性対応のトレーニング目標と共同でトレーニングされる特徴抽出器、予測子、および通訳で構成されています。
その結果、インタープリターは予測因子の動作をシミュレートし、その単一ヘッドの自己触媒メカニズムを通じて忠実な説明を提供します。
私たちの包括的な実験結果は、モデルのパフォーマンスと解釈可能性の定性的および定量的評価の両方で、いくつかの画像分類タスクにおけるIA-vitの有効性を示しています。
ソースコードは、https://github.com/qiangyao1988/ia-vitから入手できます。

要約(オリジナル)

Vision Transformers (ViTs) have become prominent models for solving various vision tasks. However, the interpretability of ViTs has not kept pace with their promising performance. While there has been a surge of interest in developing {\it post hoc} solutions to explain ViTs’ outputs, these methods do not generalize to different downstream tasks and various transformer architectures. Furthermore, if ViTs are not properly trained with the given data and do not prioritize the region of interest, the {\it post hoc} methods would be less effective. Instead of developing another {\it post hoc} approach, we introduce a novel training procedure that inherently enhances model interpretability. Our interpretability-aware ViT (IA-ViT) draws inspiration from a fresh insight: both the class patch and image patches consistently generate predicted distributions and attention maps. IA-ViT is composed of a feature extractor, a predictor, and an interpreter, which are trained jointly with an interpretability-aware training objective. Consequently, the interpreter simulates the behavior of the predictor and provides a faithful explanation through its single-head self-attention mechanism. Our comprehensive experimental results demonstrate the effectiveness of IA-ViT in several image classification tasks, with both qualitative and quantitative evaluations of model performance and interpretability. Source code is available from: https://github.com/qiangyao1988/IA-ViT.

arxiv情報

著者 Yao Qiang,Chengyin Li,Prashant Khanduri,Dongxiao Zhu
発行日 2025-05-01 15:22:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Interpretability-Aware Vision Transformer はコメントを受け付けていません

LT3SD: Latent Trees for 3D Scene Diffusion

要約

大規模な3Dシーン生成のための新しい潜在拡散モデルであるLT3SDを提示します。
拡散モデルの最近の進歩は、3Dオブジェクト生成で印象的な結果を示していますが、3Dシーンに拡張すると空間的な範囲と品質が限られています。
複雑で多様な3Dシーン構造を生成するために、粗周波のジオメトリと高周波の詳細の両方を粗から微細な階層に効果的にエンコードするために、潜在ツリー表現を導入します。
その後、この潜在的な3Dシーン空間で生成的拡散プロセスを学習し、各解像度レベルでシーンの潜在コンポーネントをモデル化できます。
さまざまなサイズの大規模なシーンを合成するために、シーンパッチで拡散モデルをトレーニングし、複数のシーンパッチにわたって共有された拡散生成を通じて任意のサイズの出力3Dシーンを合成します。
広範な実験を通じて、大規模で高品質の無条件の3Dシーン生成のためのLT3SDの有効性と利点を示し、部分的なシーン観測のための確率的完了について実証します。

要約(オリジナル)

We present LT3SD, a novel latent diffusion model for large-scale 3D scene generation. Recent advances in diffusion models have shown impressive results in 3D object generation, but are limited in spatial extent and quality when extended to 3D scenes. To generate complex and diverse 3D scene structures, we introduce a latent tree representation to effectively encode both lower-frequency geometry and higher-frequency detail in a coarse-to-fine hierarchy. We can then learn a generative diffusion process in this latent 3D scene space, modeling the latent components of a scene at each resolution level. To synthesize large-scale scenes with varying sizes, we train our diffusion model on scene patches and synthesize arbitrary-sized output 3D scenes through shared diffusion generation across multiple scene patches. Through extensive experiments, we demonstrate the efficacy and benefits of LT3SD for large-scale, high-quality unconditional 3D scene generation and for probabilistic completion for partial scene observations.

arxiv情報

著者 Quan Meng,Lei Li,Matthias Nießner,Angela Dai
発行日 2025-05-01 15:23:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | LT3SD: Latent Trees for 3D Scene Diffusion はコメントを受け付けていません

Uncertainty-Aware Multi-Expert Knowledge Distillation for Imbalanced Disease Grading

要約

自動疾患画像グレーディングは、ヘルスケア向けの人工知能の重要なアプリケーションであり、より速く、より正確な患者評価を可能にします。
ただし、データの不均衡によって悪化するドメインシフトは、モデルにバイアスを導入し、臨床応用の展開の問題を提起します。
問題に対処するために、noble \ textbf {u} nc evernationty-aware \ textbf {m} ulti-experts \ textbf {k} nowledge \ textbf {d} intillation(umkd)フレームワークを提案して、複数の専門家モデルから単一の学生モデルに知識を転送します。
具体的には、識別機能を抽出するために、UMKDは、機能空間に浅いコンパクトな機能アライメントを備えたタスクに依存しないおよびタスク固有の特徴を分離します。
出力空間では、不確実性を認識した分離蒸留(UDD)メカニズムは、専門家モデルの不確実性に基づいて知識伝達の重みを動的に調整し、堅牢で信頼できる蒸留を確保します。
さらに、UMKDは、ソースドメインとターゲットドメインの間のモデルアーキテクチャの不均一性と分布の不一致の問題にも取り組みます。
組織学の前立腺格付け(\ TextIT {SICAPV2})およびFundus Image Grading(\ TextIT {Aptos})に関する広範な実験は、UMKDがソースバランスとターゲットの両方のシナリオの両方で新しい最先端を達成し、現実的な疾患イメージのグレーディングのための堅牢で実用的なソリューションを提供することを示しています。

要約(オリジナル)

Automatic disease image grading is a significant application of artificial intelligence for healthcare, enabling faster and more accurate patient assessments. However, domain shifts, which are exacerbated by data imbalance, introduce bias into the model, posing deployment difficulties in clinical applications. To address the problem, we propose a novel \textbf{U}ncertainty-aware \textbf{M}ulti-experts \textbf{K}nowledge \textbf{D}istillation (UMKD) framework to transfer knowledge from multiple expert models to a single student model. Specifically, to extract discriminative features, UMKD decouples task-agnostic and task-specific features with shallow and compact feature alignment in the feature space. At the output space, an uncertainty-aware decoupled distillation (UDD) mechanism dynamically adjusts knowledge transfer weights based on expert model uncertainties, ensuring robust and reliable distillation. Additionally, UMKD also tackles the problems of model architecture heterogeneity and distribution discrepancies between source and target domains, which are inadequately tackled by previous KD approaches. Extensive experiments on histology prostate grading (\textit{SICAPv2}) and fundus image grading (\textit{APTOS}) demonstrate that UMKD achieves a new state-of-the-art in both source-imbalanced and target-imbalanced scenarios, offering a robust and practical solution for real-world disease image grading.

arxiv情報

著者 Shuo Tong,Shangde Gao,Ke Liu,Zihang Huang,Hongxia Xu,Haochao Ying,Jian Wu
発行日 2025-05-01 15:26:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Uncertainty-Aware Multi-Expert Knowledge Distillation for Imbalanced Disease Grading はコメントを受け付けていません

Visual Trajectory Prediction of Vessels for Inland Navigation

要約

内陸航法の将来は、自律システムとリモート操作にますます依存しており、正確な船舶軌道予測の必要性を強調しています。
この研究では、高度なオブジェクト検出方法、カルマンフィルター、およびスプラインベースの補間を統合することにより、ビデオベースの船舶追跡と予測の課題に対処します。
ただし、既存の検出システムは、複雑な環境のために内陸の水路のオブジェクトを誤分類することがよくあります。
ボットソート、ディープオックソート、バイエトラックを含む追跡アルゴリズムの比較評価は、スムーズな軌跡を提供するカルマンフィルターの堅牢性を強調しています。
多様なシナリオからの実験結果は、衝突回避と状況認識に不可欠な容器の動きの予測の精度の向上を示しています。
調査結果は、内陸ナビゲーション用のカスタマイズされたデータセットとモデルの必要性を強調しています。
将来の作業では、データセットを拡張し、容器分類を組み込んで予測を改善し、複雑な環境で自律システムと人間のオペレーターの両方をサポートします。

要約(オリジナル)

The future of inland navigation increasingly relies on autonomous systems and remote operations, emphasizing the need for accurate vessel trajectory prediction. This study addresses the challenges of video-based vessel tracking and prediction by integrating advanced object detection methods, Kalman filters, and spline-based interpolation. However, existing detection systems often misclassify objects in inland waterways due to complex surroundings. A comparative evaluation of tracking algorithms, including BoT-SORT, Deep OC-SORT, and ByeTrack, highlights the robustness of the Kalman filter in providing smoothed trajectories. Experimental results from diverse scenarios demonstrate improved accuracy in predicting vessel movements, which is essential for collision avoidance and situational awareness. The findings underline the necessity of customized datasets and models for inland navigation. Future work will expand the datasets and incorporate vessel classification to refine predictions, supporting both autonomous systems and human operators in complex environments.

arxiv情報

著者 Alexander Puzicha,Konstantin Wüstefeld,Kathrin Wilms,Frank Weichert
発行日 2025-05-01 15:31:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Visual Trajectory Prediction of Vessels for Inland Navigation はコメントを受け付けていません

Dietary Intake Estimation via Continuous 3D Reconstruction of Food

要約

肥満、糖尿病、心血管疾患を含む、過食と過小食に関連する健康上のリスクを防ぐためには、食事の習慣を監視することが重要です。
食物摂取を追跡するための従来の方法は、食事の前後に自己申告によるデータに依存していますが、これは不正確になりやすいです。
この研究は、単眼2Dビデオから構築された3D食品モデルを活用することにより、摂取行動を正確に監視するアプローチを提案しています。
ColMapとポーズ推定アルゴリズムを使用して、食品の詳細な3D表現を生成し、消費される食品量の変化を観察することができます。
おもちゃモデルと実際の食品を使用した実験は、アプローチの可能性を示しています。
一方、状態の変化を正確に検出し、モデルの忠実度を維持するための自動化された州認識の課題のための新しい方法論を提案しました。
3D再建アプローチは、包括的な食事行動の洞察を捉えることに有望であり、最終的には自動化された正確な食事監視ツールの開発に貢献しています。

要約(オリジナル)

Monitoring dietary habits is crucial for preventing health risks associated with overeating and undereating, including obesity, diabetes, and cardiovascular diseases. Traditional methods for tracking food intake rely on self-reported data before or after the eating, which are prone to inaccuracies. This study proposes an approach to accurately monitor ingest behaviours by leveraging 3D food models constructed from monocular 2D video. Using COLMAP and pose estimation algorithms, we generate detailed 3D representations of food, allowing us to observe changes in food volume as it is consumed. Experiments with toy models and real food items demonstrate the approach’s potential. Meanwhile, we have proposed a new methodology for automated state recognition challenges to accurately detect state changes and maintain model fidelity. The 3D reconstruction approach shows promise in capturing comprehensive dietary behaviour insights, ultimately contributing to the development of automated and accurate dietary monitoring tools.

arxiv情報

著者 Wallace Lee,YuHao Chen
発行日 2025-05-01 15:35:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Dietary Intake Estimation via Continuous 3D Reconstruction of Food はコメントを受け付けていません

Pixel3DMM: Versatile Screen-Space Priors for Single-Image 3D Face Reconstruction

要約

単一のRGB画像からの人間の顔の3D再構成に対処します。
この目的のために、3Dの形態可能なフェイスモデル(3DMM)の最適化を制約するために、ピクセルあたりの幾何学的キューを予測する高度な視覚化された視力変圧器のセットであるPixel3DMMを提案します。
Dino Foundationモデルの潜在的な特徴を活用し、カスタマイズされた表面正常およびUV配位予測ヘッドを導入します。
Flame Meshトポロジーに対して3つの高品質の3Dフェイスデータセットを登録することにより、モデルをトレーニングします。これにより、合計1,000を超えるアイデンティティと976K画像が表示されます。
3Dフェイスの再構築のために、UV座標および通常の推定値からの3DMMパラメーターを解決する火炎のフィッティングオペット化を提案します。
私たちの方法を評価するために、多様性の顔の表情、視聴角度、民族性を特徴とする、単一イメージの顔の再構築のための新しいベンチマークを紹介します。
重要なことに、私たちのベンチマークは、ポーズとニュートラルの顔のジオメトリの両方を評価した最初のベンチマークです。
最終的に、私たちの方法は、ポーズされた表情の幾何学的精度の点で、最も競争の激しいベースラインを15%以上上回ります。

要約(オリジナル)

We address the 3D reconstruction of human faces from a single RGB image. To this end, we propose Pixel3DMM, a set of highly-generalized vision transformers which predict per-pixel geometric cues in order to constrain the optimization of a 3D morphable face model (3DMM). We exploit the latent features of the DINO foundation model, and introduce a tailored surface normal and uv-coordinate prediction head. We train our model by registering three high-quality 3D face datasets against the FLAME mesh topology, which results in a total of over 1,000 identities and 976K images. For 3D face reconstruction, we propose a FLAME fitting opitmization that solves for the 3DMM parameters from the uv-coordinate and normal estimates. To evaluate our method, we introduce a new benchmark for single-image face reconstruction, which features high diversity facial expressions, viewing angles, and ethnicities. Crucially, our benchmark is the first to evaluate both posed and neutral facial geometry. Ultimately, our method outperforms the most competitive baselines by over 15% in terms of geometric accuracy for posed facial expressions.

arxiv情報

著者 Simon Giebenhain,Tobias Kirschstein,Martin Rünz,Lourdes Agapito,Matthias Nießner
発行日 2025-05-01 15:47:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Pixel3DMM: Versatile Screen-Space Priors for Single-Image 3D Face Reconstruction はコメントを受け付けていません

Diverse Semantics-Guided Feature Alignment and Decoupling for Visible-Infrared Person Re-Identification

要約

可視性のある人の再識別(VI-REID)は、目に見える画像と赤外線画像の間の大きなモダリティの矛盾があるため、困難なタスクであり、適切な共通空間への特徴のアライメントを複雑にします。
さらに、照明や色のコントラストなどのスタイルノイズは、アイデンティティの識別性と機能のモダリティの不変性を減らします。
これらの課題に対処するために、アイデンティティ関連の機能を異なるモダリティからテキスト埋め込みスペースに整列させ、各モダリティ内のアイデンティティに関連する機能を解き放つために、新しい多様なセマンティクスガイド機能アライメントとデカップリング(DSFAD)ネットワークを提案します。
具体的には、多様なセマンティクスガイド機能アライメント(DSFA)モジュールを開発し、多様な文構造を使用して歩行者の説明を生成して、視覚的特徴のクロスモダリティアラインメントを導きます。
さらに、スタイル情報をフィルタリングするために、視覚的特徴を歩行者関連のスタイル関連コンポーネントに分解し、前​​者とテキストの埋め込みの類似性を少なくともテキスト埋め込みの間のマージンよりも高いマージンに分解するセマンティックマージン誘導機能デカップリング(SMFD)モジュールを提案します。
さらに、機能分離中に歩行者のセマンティクスの喪失を防ぐために、セマンティックな一貫性ガイド付き機能回復(SCFR)モジュールを設計します。これにより、スタイル関連の機能から識別するための有用な情報をさらに発掘し、歩行者関連の機能に戻し、その後、補充後の埋め込み後の埋め込みの埋め込みとの埋め込みの間のテキストの埋め込みの間の特徴との類似性を制約します。
3つのVI-REIDデータセットでの広範な実験は、DSFADの優位性を示しています。

要約(オリジナル)

Visible-Infrared Person Re-Identification (VI-ReID) is a challenging task due to the large modality discrepancy between visible and infrared images, which complicates the alignment of their features into a suitable common space. Moreover, style noise, such as illumination and color contrast, reduces the identity discriminability and modality invariance of features. To address these challenges, we propose a novel Diverse Semantics-guided Feature Alignment and Decoupling (DSFAD) network to align identity-relevant features from different modalities into a textual embedding space and disentangle identity-irrelevant features within each modality. Specifically, we develop a Diverse Semantics-guided Feature Alignment (DSFA) module, which generates pedestrian descriptions with diverse sentence structures to guide the cross-modality alignment of visual features. Furthermore, to filter out style information, we propose a Semantic Margin-guided Feature Decoupling (SMFD) module, which decomposes visual features into pedestrian-related and style-related components, and then constrains the similarity between the former and the textual embeddings to be at least a margin higher than that between the latter and the textual embeddings. Additionally, to prevent the loss of pedestrian semantics during feature decoupling, we design a Semantic Consistency-guided Feature Restitution (SCFR) module, which further excavates useful information for identification from the style-related features and restores it back into the pedestrian-related features, and then constrains the similarity between the features after restitution and the textual embeddings to be consistent with that between the features before decoupling and the textual embeddings. Extensive experiments on three VI-ReID datasets demonstrate the superiority of our DSFAD.

arxiv情報

著者 Neng Dong,Shuanglin Yan,Liyan Zhang,Jinhui Tang
発行日 2025-05-01 15:55:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Diverse Semantics-Guided Feature Alignment and Decoupling for Visible-Infrared Person Re-Identification はコメントを受け付けていません

A Deep Learning-Based Unified Framework for Red Lesions Detection on Retinal Fundus Images

要約

赤浸透、微生物尿症(MAS)および出血(HMS)は、糖尿病性網膜症(DR)の初期兆候です。
網膜眼底画像でのMASおよびHMSの自動検出は、困難な作業です。
既存の方法のほとんどは、テクスチャ、サイズ、形態の違いがあるため、MASまたはHMのみを検出します。
一部の方法はMASとHMの両方を検出しますが、形状と色の機能の次元の呪いに悩まされ、火炎型などのHMのすべての形状のバリエーションを検出できません。
深い学習の進捗状況を活用して、大小の赤い病変を同時に扱う2ストリーム赤い病変検出システムを提案しました。
このシステムでは、眼底画像に大きな赤い病変のための新しいROIS候補生成方法を導入しました。
これは、血管のセグメンテーションと形態学的操作に基づいており、計算の複雑さを減らし、少数の潜在的な候補を生成することにより検出の精度を高めます。
検出のために、2つのストリームを持つフレームワークを提案しました。
前処理されたVGGNETをバックボーンモデルとして使用し、容器のセグメンテーションと候補者の生成のためにチューニングするためにいくつかの広範な実験を実行し、最終的に適切なマッピングを学習し、最先端の方法と比較して赤い病変のより良い検出をもたらします。
実験結果は、MASとHMSの両方の検出におけるシステムの有効性を検証しました。
病変ごとの検出に対してより高いパフォーマンスをもたらします。
その感度は0.8589とDiaretDB1-MAの8 FPI未満の良好なFROCスコアに相当し、FROC = 0.7518、SN = 0.7552およびDiARETDB1-HMで2,4および8 FPI未満の良好なFROCスコアで、E-OPHTHAではFROC = 0.4537およびFROCのFROC katisetでSn = 0.8157に相当
最先端の方法。
DRスクリーニングの場合、システムはDiaretDB1-MA、DiaretDB1-HM、およびE-OPHTHAデータセットの優れたAUCでうまく機能します。

要約(オリジナル)

Red-lesions, microaneurysms (MAs) and hemorrhages (HMs), are the early signs of diabetic retinopathy (DR). The automatic detection of MAs and HMs on retinal fundus images is a challenging task. Most of the existing methods detect either only MAs or only HMs because of the difference in their texture, sizes, and morphology. Though some methods detect both MAs and HMs, they suffer from the curse of dimensionality of shape and colors features and fail to detect all shape variations of HMs such as flame-shaped. Leveraging the progress in deep learning, we proposed a two-stream red lesions detection system dealing simultaneously with small and large red lesions. For this system, we introduced a new ROIs candidates generation method for large red lesions on fundus images; it is based on blood vessel segmentation and morphological operations, and reduces the computational complexity, and enhances the detection accuracy by generating a small number of potential candidates. For detection, we proposed a framework with two streams. We used pretrained VGGNet as a backbone model and carried out several extensive experiments to tune it for vessels segmentation and candidates generation, and finally learning the appropriate mapping, which yields better detection of the red lesions comparing with the state-of-the-art methods. The experimental results validated the effectiveness of the system in the detection of both MAs and HMs; it yields higher performance for per lesion detection; its sensitivity equals 0.8589 and good FROC score under 8 FPIs on DiaretDB1-MA reports FROC=0.7518, and with SN=0.7552 and good FROC score under 2,4and 8 FPIs on DiaretDB1-HM, and SN=0.8157 on e-ophtha with overall FROC=0.4537 and on ROCh dataset with FROC=0.3461 which is higher than the state-of-the art methods. For DR screening, the system performs well with good AUC on DiaretDB1-MA, DiaretDB1-HM, and e-ophtha datasets.

arxiv情報

著者 Norah Asiri,Muhammad Hussain,Fadwa Al Adel
発行日 2025-05-01 15:59:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | A Deep Learning-Based Unified Framework for Red Lesions Detection on Retinal Fundus Images はコメントを受け付けていません

Brain Foundation Models with Hypergraph Dynamic Adapter for Brain Disease Analysis

要約

アルツハイマー病や脳腫瘍などの脳疾患は、その複雑さと社会的影響のために深い課題をもたらします。
脳基礎モデルの最近の進歩は、脳関連のさまざまなタスクに対処することに大きな約束を示しています。
ただし、現在の脳基礎モデルは、タスクとデータの均一性、セグメンテーションまたは分類を超えた制限された一般化、および多様な臨床タスクへの非効率的な適応によって制限されています。
この作業では、14のMRIサブモダリティにわたって66,000を超える脳画像ラベルペアを訓練する脳固有の基礎モデルであるSam-Brain3Dと、効率的かつ効果的なダウンストリーム適応のための軽量アダプターであるHypergraph Dynamic Adapter(HYDA)を提案します。
SAM-BRAIN3Dは、多様な脳のターゲットとより広範な下流タスクをセグメント化するための詳細な脳固有の解剖学的およびモダリティプライアーをキャプチャします。
HYDAはハイパーグラフを活用して補完的なマルチモーダルデータを融合し、マルチスケールの特徴融合とパーソナライズされた患者ごとの適応のために患者固有の畳み込みカーネルを動的に生成します。
一緒に、私たちのフレームワークは、幅広い脳疾患のセグメンテーションと分類タスクにわたって優れています。
広範な実験は、私たちの方法が既存の最先端のアプローチを常に上回っており、マルチモーダル、マルチスケール、ダイナミックファンデーションモデリングを通じて脳疾患分析の新しいパラダイムを提供することを示しています。

要約(オリジナル)

Brain diseases, such as Alzheimer’s disease and brain tumors, present profound challenges due to their complexity and societal impact. Recent advancements in brain foundation models have shown significant promise in addressing a range of brain-related tasks. However, current brain foundation models are limited by task and data homogeneity, restricted generalization beyond segmentation or classification, and inefficient adaptation to diverse clinical tasks. In this work, we propose SAM-Brain3D, a brain-specific foundation model trained on over 66,000 brain image-label pairs across 14 MRI sub-modalities, and Hypergraph Dynamic Adapter (HyDA), a lightweight adapter for efficient and effective downstream adaptation. SAM-Brain3D captures detailed brain-specific anatomical and modality priors for segmenting diverse brain targets and broader downstream tasks. HyDA leverages hypergraphs to fuse complementary multi-modal data and dynamically generate patient-specific convolutional kernels for multi-scale feature fusion and personalized patient-wise adaptation. Together, our framework excels across a broad spectrum of brain disease segmentation and classification tasks. Extensive experiments demonstrate that our method consistently outperforms existing state-of-the-art approaches, offering a new paradigm for brain disease analysis through multi-modal, multi-scale, and dynamic foundation modeling.

arxiv情報

著者 Zhongying Deng,Haoyu Wang,Ziyan Huang,Lipei Zhang,Angelica I. Aviles-Rivero,Chaoyu Liu,Junjun He,Zoe Kourtzi,Carola-Bibiane Schönlieb
発行日 2025-05-01 16:06:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Brain Foundation Models with Hypergraph Dynamic Adapter for Brain Disease Analysis はコメントを受け付けていません

Vision Mamba in Remote Sensing: A Comprehensive Survey of Techniques, Applications and Outlook

要約

ディープラーニングはリモートセンシングを大きく変換しましたが、畳み込みニューラルネットワーク(CNNS)や視覚変圧器(VITS)などの一般的なアーキテクチャは、重要なトレードオフによって制約されたままです。
特に最近提案されたMAMBAアーキテクチャである状態空間モデル(SSM)は、線形計算スケーリングとグローバルコンテキストモデリングを組み合わせて、パラダイムシフトソリューションとして浮上しています。
この調査では、リモートセンシングにおけるMAMBAベースの方法論の包括的なレビューを提示し、約120の研究を体系的に分析して、イノベーションとアプリケーションの全体的な分類法を構築します。
私たちの貢献は、5つの側面にわたって構成されています。(i)視覚の基礎原則マンバアーキテクチャ、(ii)適応スキャン戦略やハイブリッドSSM製剤などのマイクロアーキテクチャの進歩、(iii)国家のハイブリッド適応、および頻度型領域を含むCNN-transformer-mambainの適応を含むマクロアーキテクチャ統合、(iiv)
オブジェクトの検出、セマンティックセグメンテーション、変更検出などの複数のアプリケーションタスク、および(v)実行可能な将来の方向性を備えた未解決の課題の批判的分析。
SSM理論とリモートセンシングプラクティスの間のギャップを埋めることにより、この調査では、MAMBAがリモートセンシング分析のための変革的フレームワークとして確立されています。
私たちの知る限り、この論文は、リモートセンシングにおけるマンバアーキテクチャの最初の系統的レビューです。
私たちの研究は、SSMベースの方法を通じてリモートセンシングシステムの研究を進めるための構造化された基盤を提供します。
オープンソースリポジトリ(https://github.com/baobao0926/awesome-mamba-in-remote-sensing)をキュレートして、コミュニティ主導の進歩を促進します。

要約(オリジナル)

Deep learning has profoundly transformed remote sensing, yet prevailing architectures like Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) remain constrained by critical trade-offs: CNNs suffer from limited receptive fields, while ViTs grapple with quadratic computational complexity, hindering their scalability for high-resolution remote sensing data. State Space Models (SSMs), particularly the recently proposed Mamba architecture, have emerged as a paradigm-shifting solution, combining linear computational scaling with global context modeling. This survey presents a comprehensive review of Mamba-based methodologies in remote sensing, systematically analyzing about 120 studies to construct a holistic taxonomy of innovations and applications. Our contributions are structured across five dimensions: (i) foundational principles of vision Mamba architectures, (ii) micro-architectural advancements such as adaptive scan strategies and hybrid SSM formulations, (iii) macro-architectural integrations, including CNN-Transformer-Mamba hybrids and frequency-domain adaptations, (iv) rigorous benchmarking against state-of-the-art methods in multiple application tasks, such as object detection, semantic segmentation, change detection, etc. and (v) critical analysis of unresolved challenges with actionable future directions. By bridging the gap between SSM theory and remote sensing practice, this survey establishes Mamba as a transformative framework for remote sensing analysis. To our knowledge, this paper is the first systematic review of Mamba architectures in remote sensing. Our work provides a structured foundation for advancing research in remote sensing systems through SSM-based methods. We curate an open-source repository (https://github.com/BaoBao0926/Awesome-Mamba-in-Remote-Sensing) to foster community-driven advancements.

arxiv情報

著者 Muyi Bao,Shuchang Lyu,Zhaoyang Xu,Huiyu Zhou,Jinchang Ren,Shiming Xiang,Xiangtai Li,Guangliang Cheng
発行日 2025-05-01 16:07:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Vision Mamba in Remote Sensing: A Comprehensive Survey of Techniques, Applications and Outlook はコメントを受け付けていません