Fast computation of the TGOSPA metric for multiple target tracking via unbalanced optimal transport

要約

複数のターゲット追跡では、さまざまな追跡アルゴリズムのパフォーマンスを評価できることが重要です。
軌道一般化最適サブパターン割り当てメトリック(TGOSPA)は、このような評価のために最近提案されたメトリックです。
TGOSPAメトリックは、最適化問題の解決策として計算されますが、大規模な追跡シナリオでは、この問題を解決するために計算的に要求が厳しくなります。
この論文では、TGOSPA問題を不均衡なマルチマージナル最適輸送問題として鋳造することに基づいて、TGOSPAメトリックを評価するための近似アルゴリズムを提示します。
計算最適輸送の最近の進歩に続いて、エントロピーの正則化を導入し、正規化された問題のラグランジアンデュアルを解くための反復スキームを導き出します。
数値結果は、提案されたアルゴリズムが、線形プログラミングソルバーを使用して正確なメトリックを計算する代替品よりも計算効率が高いことを示唆しているが、メトリックの適切な近似を提供します。

要約(オリジナル)

In multiple target tracking, it is important to be able to evaluate the performance of different tracking algorithms. The trajectory generalized optimal sub-pattern assignment metric (TGOSPA) is a recently proposed metric for such evaluations. The TGOSPA metric is computed as the solution to an optimization problem, but for large tracking scenarios, solving this problem becomes computationally demanding. In this paper, we present an approximation algorithm for evaluating the TGOSPA metric, based on casting the TGOSPA problem as an unbalanced multimarginal optimal transport problem. Following recent advances in computational optimal transport, we introduce an entropy regularization and derive an iterative scheme for solving the Lagrangian dual of the regularized problem. Numerical results suggest that our proposed algorithm is more computationally efficient than the alternative of computing the exact metric using a linear programming solver, while still providing an adequate approximation of the metric.

arxiv情報

著者 Viktor Nevelius Wernholm,Alfred Wärnsäter,Axel Ringh
発行日 2025-03-12 14:51:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SY, eess.SY, math.OC | Fast computation of the TGOSPA metric for multiple target tracking via unbalanced optimal transport はコメントを受け付けていません

FastTextSpotter: A High-Efficiency Transformer for Multilingual Scene Text Spotting

要約

構造化された環境と非構造化されていない環境の両方でのシーンテキストの急増は、光学文字認識(OCR)に大きな課題をもたらし、より効率的で堅牢なテキストスポッティングソリューションを必要とします。
このペーパーでは、Swin Transformer Visual Backboneを変圧器エンコーダデコーダーアーキテクチャと統合するフレームワークであるFastTextspotterを紹介します。
FastTextspotterは、通常のテキストのICDAR2015や任意の形のテキストのTotalTextを含む複数のデータセットで検証されており、現在の最先端モデルに対してベンチマークされています。
我々の結果は、FastTextspotterが多言語シーンテキスト(英語とベトナム語)を検出および認識する際に優れた精度を達成するだけでなく、モデル効率を向上させ、それによってフィールドで新しいベンチマークを設定することを示しています。
この研究では、多様な現実世界の設定でアプリケーションの適応性と速度を改善する上で高度な変圧器アーキテクチャの可能性を強調しています。
データセット、コード、および事前に訓練されたモデルは、GitHubでリリースされています。

要約(オリジナル)

The proliferation of scene text in both structured and unstructured environments presents significant challenges in optical character recognition (OCR), necessitating more efficient and robust text spotting solutions. This paper presents FastTextSpotter, a framework that integrates a Swin Transformer visual backbone with a Transformer Encoder-Decoder architecture, enhanced by a novel, faster self-attention unit, SAC2, to improve processing speeds while maintaining accuracy. FastTextSpotter has been validated across multiple datasets, including ICDAR2015 for regular texts and CTW1500 and TotalText for arbitrary-shaped texts, benchmarking against current state-of-the-art models. Our results indicate that FastTextSpotter not only achieves superior accuracy in detecting and recognizing multilingual scene text (English and Vietnamese) but also improves model efficiency, thereby setting new benchmarks in the field. This study underscores the potential of advanced transformer architectures in improving the adaptability and speed of text spotting applications in diverse real-world settings. The dataset, code, and pre-trained models have been released in our Github.

arxiv情報

著者 Alloy Das,Sanket Biswas,Umapada Pal,Josep Lladós,Saumik Bhattacharya
発行日 2025-03-12 14:56:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FastTextSpotter: A High-Efficiency Transformer for Multilingual Scene Text Spotting はコメントを受け付けていません

RAID-Database: human Responses to Affine Image Distortions

要約

画質データベースは、主観的な人間の認識を予測するためのモデルをトレーニングするために使用されます。
ただし、ほとんどの既存のデータベースは、自然条件ではなく、デジタルメディアで一般的に見られる歪みに焦点を当てています。
アフィン変換は、日常生活で人間の観察者が最も一般的に遭遇したものの1つであるため、勉強に特に関連しています。
このデータ記述子は、以前の既存の画像品質データベースと比較するための便利な参照として、控除株式アフィン画像変換(回転、翻訳、スケーリング)およびガウスノイズに対する一連の人間の応答を提示します。
応答は、確立された精神物理学:最尤差スケーリング法を使用して測定されました。
このセットには、864個の歪んだ画像に対する応答が含まれています。
実験には、105人のオブザーバーと20000件以上の画像の比較が含まれていました。
データセットの品質は、(a)古典的なpi \ ‘eronの法則を再現し、(b)古典的な絶対検出しきい値を再現し、(c)従来の画像品質データベースと一致しているが、グループマッド実験に従って改善するため、保証されます。

要約(オリジナル)

Image quality databases are used to train models for predicting subjective human perception. However, most existing databases focus on distortions commonly found in digital media and not in natural conditions. Affine transformations are particularly relevant to study, as they are among the most commonly encountered by human observers in everyday life. This Data Descriptor presents a set of human responses to suprathreshold affine image transforms (rotation, translation, scaling) and Gaussian noise as convenient reference to compare with previously existing image quality databases. The responses were measured using well established psychophysics: the Maximum Likelihood Difference Scaling method. The set contains responses to 864 distorted images. The experiments involved 105 observers and more than 20000 comparisons of quadruples of images. The quality of the dataset is ensured because (a) it reproduces the classical Pi\’eron’s law, (b) it reproduces classical absolute detection thresholds, and (c) it is consistent with conventional image quality databases but improves them according to Group-MAD experiments.

arxiv情報

著者 Paula Daudén-Oliver,David Agost-Beltran,Emilio Sansano-Sansano,Valero Laparra,Jesús Malo,Marina Martínez-Garcia
発行日 2025-03-12 15:12:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, q-bio.NC, q-bio.QM | RAID-Database: human Responses to Affine Image Distortions はコメントを受け付けていません

Hybrid Rendering for Multimodal Autonomous Driving: Merging Neural and Physics-Based Simulation

要約

自律運転シミュレーションのための神経再構成モデ​​ルは、近年、動的なモデルがますます普及していることに大きな進歩を遂げています。
ただし、これらのモデルは通常、元の軌跡を密接に追跡するドメイン内のオブジェクトの処理に限定されます。
神経再構成の強度を物理学ベースのレンダリングと組み合わせたハイブリッドアプローチを紹介します。
この方法により、任意の場所にある従来のメッシュベースの動的エージェントの仮想配置、環境条件への調整、および新しいカメラの視点からのレンダリングが可能になります。
私たちのアプローチは、新しいトレーニング方法であるNERF2GSを通じてインタラクティブなフレームレートを維持しながら、新しいビューの合成品質(特に道路面やレーンマーキング)を大幅に向上させます。
この手法は、NERFベースの方法の優れた一般化能力と、3Dガウススプラッティング(3DG)のリアルタイムレンダリング速度を活用します。
これを実現し、騒々しいライダーポイントクラウドから派生した深さの正則化を備えた元の画像でカスタマイズされたNERFモデルをトレーニングし、3DGSトレーニングの教師モデルとして使用します。
このプロセスにより、監督として正確な深さ、表面正規、カメラの外観モデリングが保証されます。
ブロックベースのトレーニングの並列化により、この方法は大規模な再構成(100,000平方メートル以上)を処理し、セグメンテーションマスク、表面正規、深度マップを予測できます。
シミュレーション中、深度ベースの構成とリアルタイムカメラシミュレーション用の複数のカメラモデルを備えたラスター化ベースのレンダリングバックエンド、および正確なライダーシミュレーション用のレイトレースバックエンドをサポートします。

要約(オリジナル)

Neural reconstruction models for autonomous driving simulation have made significant strides in recent years, with dynamic models becoming increasingly prevalent. However, these models are typically limited to handling in-domain objects closely following their original trajectories. We introduce a hybrid approach that combines the strengths of neural reconstruction with physics-based rendering. This method enables the virtual placement of traditional mesh-based dynamic agents at arbitrary locations, adjustments to environmental conditions, and rendering from novel camera viewpoints. Our approach significantly enhances novel view synthesis quality — especially for road surfaces and lane markings — while maintaining interactive frame rates through our novel training method, NeRF2GS. This technique leverages the superior generalization capabilities of NeRF-based methods and the real-time rendering speed of 3D Gaussian Splatting (3DGS). We achieve this by training a customized NeRF model on the original images with depth regularization derived from a noisy LiDAR point cloud, then using it as a teacher model for 3DGS training. This process ensures accurate depth, surface normals, and camera appearance modeling as supervision. With our block-based training parallelization, the method can handle large-scale reconstructions (greater than or equal to 100,000 square meters) and predict segmentation masks, surface normals, and depth maps. During simulation, it supports a rasterization-based rendering backend with depth-based composition and multiple camera models for real-time camera simulation, as well as a ray-traced backend for precise LiDAR simulation.

arxiv情報

著者 Máté Tóth,Péter Kovács,Zoltán Bendefy,Zoltán Hortsin,Balázs Teréki,Tamás Matuszka
発行日 2025-03-12 15:18:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | Hybrid Rendering for Multimodal Autonomous Driving: Merging Neural and Physics-Based Simulation はコメントを受け付けていません

SurgicalVLM-Agent: Towards an Interactive AI Co-Pilot for Pituitary Surgery

要約

画像誘導手術には、適応性のあるリアルタイムの意思決定サポートが必要ですが、静的AIモデルは構造化されたタスク計画とインタラクティブなガイダンスの提供と闘っています。
大規模なビジョン言語モデル(VLMS)は、動的なタスク計画と予測意思決定サポートを可能にすることにより、有望なソリューションを提供します。
会話、計画、およびタスクの実行が可能な画像誘導下垂体手術のためのAI副操縦士であるSurgicalVlm-Agentを紹介します。
エージェントは、MRI腫瘍のセグメンテーション、内視鏡の解剖学のセグメンテーション、術前のビュー、機器追跡、および外科的視覚質問(VQA)との術前イメージングのオーバーレイ(VQA)などのタスクを動的に処理し、計画します。
構造化されたタスク計画を可能にするために、セグメンテーション、オーバーレイ、機器のローカリゼーション、ツール追跡、ツール組織の相互作用、位相識別、および外科的活動の認識をカバーする外科的コンテキスト認識データセットであるPitagentデータセットを開発します。
さらに、効率的な低ランク適応のための高速フーリエ変換(FFT)ベースの勾配投影技術であるFFT-Galoreを提案し、外科環境でLlama 3.2の微調整を最適化します。
Pitagentデータセットのタスク計画と迅速な生成を評価し、公共下垂体データセットを使用してゼロショットVQAを評価することにより、SurgicalVlm-Agentを検証します。
結果は、非常に意味的に意味のあるVQA応答を備えたタスク計画とクエリ解釈における最先端のパフォーマンスを示しており、AI主導の外科的支援を進めています。

要約(オリジナル)

Image-guided surgery demands adaptive, real-time decision support, yet static AI models struggle with structured task planning and providing interactive guidance. Large vision-language models (VLMs) offer a promising solution by enabling dynamic task planning and predictive decision support. We introduce SurgicalVLM-Agent, an AI co-pilot for image-guided pituitary surgery, capable of conversation, planning, and task execution. The agent dynamically processes surgeon queries and plans the tasks such as MRI tumor segmentation, endoscope anatomy segmentation, overlaying preoperative imaging with intraoperative views, instrument tracking, and surgical visual question answering (VQA). To enable structured task planning, we develop the PitAgent dataset, a surgical context-aware dataset covering segmentation, overlaying, instrument localization, tool tracking, tool-tissue interactions, phase identification, and surgical activity recognition. Additionally, we propose FFT-GaLore, a fast Fourier transform (FFT)-based gradient projection technique for efficient low-rank adaptation, optimizing fine-tuning for LLaMA 3.2 in surgical environments. We validate SurgicalVLM-Agent by assessing task planning and prompt generation on our PitAgent dataset and evaluating zero-shot VQA using a public pituitary dataset. Results demonstrate state-of-the-art performance in task planning and query interpretation, with highly semantically meaningful VQA responses, advancing AI-driven surgical assistance.

arxiv情報

著者 Jiayuan Huang,Runlong He,Danyal Z. Khan,Evangelos Mazomenos,Danail Stoyanov,Hani J. Marcus,Matthew J. Clarkson,Mobarakol Islam
発行日 2025-03-12 15:30:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SurgicalVLM-Agent: Towards an Interactive AI Co-Pilot for Pituitary Surgery はコメントを受け付けていません

Learning Spatially Adaptive $\ell_1$-Norms Weights for Convolutional Synthesis Regularization

要約

畳み込み合成ベースの$ \ ELL_1 $正規化のフレームワークで、空間的に適応的なパラメーターマップを学習するための展開されたアルゴリズムアプローチを提案します。
より正確には、事前に訓練された畳み込みフィルターのファミリーを検討し、拳アルゴリズムを展開して基礎となるまばらな推定問題を解決することにより、スパース機能マップに適用される深くパラメータ化された空間的に変化するパラメーターを推定します。
提案されたアプローチは、低フィールドMRIの画像再構築のために評価され、全体の変動の正規化に依存している空間的に適応的および非適応型分析型手順と、確立されたモデルベースのディープ学習アプローチと比較されます。
提案されたアプローチは、後者のアプローチと同時に視覚的かつ定量的に同等の結果を生成し、同時に非常に解釈可能であることを示します。
特に、推定されたパラメーターマップは、再構成における各フィルターの局所的な寄与を定量化します。これは、アルゴリズムメカニズムに対する貴重な洞察を提供し、潜在的に使用されるために使用される可能性があります。

要約(オリジナル)

We propose an unrolled algorithm approach for learning spatially adaptive parameter maps in the framework of convolutional synthesis-based $\ell_1$ regularization. More precisely, we consider a family of pre-trained convolutional filters and estimate deeply parametrized spatially varying parameters applied to the sparse feature maps by means of unrolling a FISTA algorithm to solve the underlying sparse estimation problem. The proposed approach is evaluated for image reconstruction of low-field MRI and compared to spatially adaptive and non-adaptive analysis-type procedures relying on Total Variation regularization and to a well-established model-based deep learning approach. We show that the proposed approach produces visually and quantitatively comparable results with the latter approaches and at the same time remains highly interpretable. In particular, the inferred parameter maps quantify the local contribution of each filter in the reconstruction, which provides valuable insight into the algorithm mechanism and could potentially be used to discard unsuited filters.

arxiv情報

著者 Andreas Kofler,Luca Calatroni,Christoph Kolbitsch,Kostas Papafitsoros
発行日 2025-03-12 15:38:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, math.OC | Learning Spatially Adaptive $\ell_1$-Norms Weights for Convolutional Synthesis Regularization はコメントを受け付けていません

Project-Probe-Aggregate: Efficient Fine-Tuning for Group Robustness

要約

画像テキストファンデーションモデルは、多様なダウンストリームタスク全体で成功していますが、入力とラベルの間に偽の相関が存在する場合、依然として課題に直面しています。
この問題に対処するために、グループ注釈に頼らずにファンデーションモデルのパラメーター効率の高い微調整を可能にする、単純な3段階のアプローチであるプロジェクトプローブアグゲート(PPA)を提案します。
障害ベースの衰弱スキームに基づいて、当社のメソッドであるPPAは、その2つの重要なコンポーネントを改善します。マイノリティサンプル識別と堅牢なトレーニングアルゴリズムです。
具体的には、最初に、テキストエンコーダのクラスプロキシのnullspaceに画像機能を投影することにより、偏った分類器を訓練します。
次に、偏った分類器とプローブグループのターゲットを使用して、以前の修正を行うグループラベルを推測します。
最後に、各クラスのグループ重みを集約して、紛争分類器を生成します。
当社の理論分析は、PPAがマイノリティグループの識別を強化し、バランスの取れたグループエラーを最小限に抑えるのに最適なベイズであることを示しています。
広範な実験結果は、PPAの有効性を確認します。これは、トレーニンググループラベルなしで0.01%未満の調整可能なパラメーターを必要としながら、平均最悪のグループの精度で最先端を上回ります。

要約(オリジナル)

While image-text foundation models have succeeded across diverse downstream tasks, they still face challenges in the presence of spurious correlations between the input and label. To address this issue, we propose a simple three-step approach,Project-Probe-Aggregate (PPA), that enables parameter-efficient fine-tuning for foundation models without relying on group annotations. Building upon the failure-based debiasing scheme, our method, PPA, improves its two key components: minority samples identification and the robust training algorithm. Specifically, we first train biased classifiers by projecting image features onto the nullspace of class proxies from text encoders. Next, we infer group labels using the biased classifier and probe group targets with prior correction. Finally, we aggregate group weights of each class to produce the debiased classifier. Our theoretical analysis shows that our PPA enhances minority group identification and is Bayes optimal for minimizing the balanced group error, mitigating spurious correlations. Extensive experimental results confirm the effectiveness of our PPA: it outperforms the state-of-the-art by an average worst-group accuracy while requiring less than 0.01% tunable parameters without training group labels.

arxiv情報

著者 Beier Zhu,Jiequan Cui,Hanwang Zhang,Chi Zhang
発行日 2025-03-12 15:46:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Project-Probe-Aggregate: Efficient Fine-Tuning for Group Robustness はコメントを受け付けていません

DAMM-Diffusion: Learning Divergence-Aware Multi-Modal Diffusion Model for Nanoparticles Distribution Prediction

要約

ナノ粒子(NPS)分布の予測は、腫瘍の診断と治療に不可欠です。
最近の研究は、腫瘍微小環境(TME)の不均一性が腫瘍間のNPの分布に大きく影響することを示しています。
したがって、マルチモーダルTMEコンポーネントを使用してNPS分布を生成するための研究ホットスポットになりました。
ただし、マルチモーダルTMEコンポーネント間の分布の発散は、副作用を引き起こす可能性があります。つまり、最良のユニモーダルモデルは、ジョイント生成モデルを上回る可能性があります。
上記の問題に対処するために、\ textbf {d} avergence- \ textbf {a} ware \ textbf {m} ulti- \ textbf {m} odal \ textbf {diffusion}モデル(すなわち、\ textbf {damm-diffusion})を提案します。
統一されたネットワーク。
詳細には、Uni-ModalブランチはU-NETアーキテクチャで構成されていますが、マルチモーダルブランチは、2つの新しい融合モジュール、つまりマルチモーダル融合モジュール(MMFM)と不確実性認識融合モジュール(UAFM)を導入することで拡張します。
具体的には、MMFMは複数のモダリティから機能を融合するように提案されていますが、UAFMモジュールは導入されて、クロスアテナント計算の不確実性マップを学習します。
各ブランチからの個々の予測の結果に続いて、Divergence-Aware Multi-Modal Predictor(DAMMP)モジュールが、マルチモーダルデータの不確実性マップとの一貫性を評価することを提案します。
腫瘍血管と細胞核のTME成分を考慮してNPS分布を予測し、実験結果は、DAMM拡散が比較方法よりも高い精度でNPの分布を生成できることを示しています。
マルチモーダル脳画像合成タスクに関する追加の結果は、提案された方法の有効性をさらに検証します。

要約(オリジナル)

The prediction of nanoparticles (NPs) distribution is crucial for the diagnosis and treatment of tumors. Recent studies indicate that the heterogeneity of tumor microenvironment (TME) highly affects the distribution of NPs across tumors. Hence, it has become a research hotspot to generate the NPs distribution by the aid of multi-modal TME components. However, the distribution divergence among multi-modal TME components may cause side effects i.e., the best uni-modal model may outperform the joint generative model. To address the above issues, we propose a \textbf{D}ivergence-\textbf{A}ware \textbf{M}ulti-\textbf{M}odal \textbf{Diffusion} model (i.e., \textbf{DAMM-Diffusion}) to adaptively generate the prediction results from uni-modal and multi-modal branches in a unified network. In detail, the uni-modal branch is composed of the U-Net architecture while the multi-modal branch extends it by introducing two novel fusion modules i.e., Multi-Modal Fusion Module (MMFM) and Uncertainty-Aware Fusion Module (UAFM). Specifically, the MMFM is proposed to fuse features from multiple modalities, while the UAFM module is introduced to learn the uncertainty map for cross-attention computation. Following the individual prediction results from each branch, the Divergence-Aware Multi-Modal Predictor (DAMMP) module is proposed to assess the consistency of multi-modal data with the uncertainty map, which determines whether the final prediction results come from multi-modal or uni-modal predictions. We predict the NPs distribution given the TME components of tumor vessels and cell nuclei, and the experimental results show that DAMM-Diffusion can generate the distribution of NPs with higher accuracy than the comparing methods. Additional results on the multi-modal brain image synthesis task further validate the effectiveness of the proposed method.

arxiv情報

著者 Junjie Zhou,Shouju Wang,Yuxia Tang,Qi Zhu,Daoqiang Zhang,Wei Shao
発行日 2025-03-12 15:52:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | DAMM-Diffusion: Learning Divergence-Aware Multi-Modal Diffusion Model for Nanoparticles Distribution Prediction はコメントを受け付けていません

Parameter-Efficient Adaptation of Geospatial Foundation Models through Embedding Deflection

要約

大規模な異質なデータセットがますます利用できるようになるにつれて、基礎モデルを低コストで適応させることが重要な問題になりました。
自然言語処理の独創的な作品、例えば
低ランク適応(LORA)は、適応中にパラメーター更新の低い「固有のランク」を活用します。
この論文では、データとモデルの両方により強力な帰納的バイアスを組み込むと、RGB衛星画像で前処理された地理空間基礎モデル(GFM)の適応が他のタイプの光学衛星データに適応できると主張しています。
具体的には、GFMの事前に抑制されたパラメーターは、マルチスペクトル画像の空間構造の強力な事前として機能します。
このため、GFMをほとんど追加のパラメーターでマルチスペクトル衛星画像に適応させるための新しい戦略である、Deflect(地球および気候の課題の潜在的な表現のための埋め込みの偏向)を紹介します。
DEFLELTは、抽出された機能の表現能力、特に地球科学と環境関連のタスクに不可欠なスペクトル情報の強化を改善します。
森林監視から海洋環境セグメンテーションに至るまで、3つの異なるGFMと5つの多様なデータセットにわたるメソッドの有効性を実証します。
競合する方法と比較して、Dedlefltは、分類およびセグメンテーションタスクのための5〜10 $ \ Times $のパラメーターを5〜10 $ \ Timesでより高い精度またはより高い精度を達成します。
コードは公開されます。

要約(オリジナル)

As large-scale heterogeneous data sets become increasingly available, adapting foundation models at low cost has become a key issue. Seminal works in natural language processing, e.g. Low-Rank Adaptation (LoRA), leverage the low ‘intrinsic rank’ of parameter updates during adaptation. In this paper, we argue that incorporating stronger inductive biases in both data and models can enhance the adaptation of Geospatial Foundation Models (GFMs), pretrained on RGB satellite images, to other types of optical satellite data. Specifically, the pretrained parameters of GFMs serve as a strong prior for the spatial structure of multispectral images. For this reason, we introduce DEFLECT (Deflecting Embeddings for Finetuning Latent representations for Earth and Climate Tasks), a novel strategy for adapting GFMs to multispectral satellite imagery with very few additional parameters. DEFLECT improves the representation capabilities of the extracted features, particularly enhancing spectral information, which is essential for geoscience and environmental-related tasks. We demonstrate the effectiveness of our method across three different GFMs and five diverse datasets, ranging from forest monitoring to marine environment segmentation. Compared to competing methods, DEFLECT achieves on-par or higher accuracy with 5-10$\times$ fewer parameters for classification and segmentation tasks. The code will be made publicly available.

arxiv情報

著者 Romain Thoreau,Valerio Marsocci,Dawa Derksen
発行日 2025-03-12 15:53:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Parameter-Efficient Adaptation of Geospatial Foundation Models through Embedding Deflection はコメントを受け付けていません

Robust Multimodal Survival Prediction with the Latent Differentiation Conditional Variational AutoEncoder

要約

組織病理学的画像とゲノムデータの統合分析は、ヒト癌の生存予測の注目を集めています。
ただし、既存の研究は常に、完全なモダリティが利用可能であるという仮定を保持しています。
実際のところ、ゲノムデータを収集するためのコストは高く、テストサンプルではゲノムデータが利用できない場合があります。
このような不完全性に取り組む一般的な方法は、病理画像からゲノム表現を生成することです。
それにもかかわらず、そのような戦略は依然として次の2つの課題に直面しています。(1)ギガピクセル全体のスライド画像(WSI)は巨大であり、したがって表現が難しいです。
(2)統一された生成フレームワークで、多様な関数カテゴリを備えたゲノム埋め込みを生成することは困難です。
上記の課題に対処するために、ゲノムデータが欠落していても、堅牢なマルチモーダル生存予測のために、条件付き潜在分化変分変異オートエンコーダー(LD-CVAE)を提案します。
具体的には、ギガピクセルWSIから圧縮された病理学的表現を学習するために、変動情報ボトルネックトランス(VIB-Trans)モジュールが提案されています。
さまざまな機能的ゲノム機能を生成するために、新しい潜在的な分化変動自動エンコーダー(LD-VAE)を開発して、多様な関数を備えたゲノム埋め込みの共通および特定の事後を学習します。
最後に、LD-CVAEの関節潜在分布推定のために、エンパート産物技術を​​使用して、ゲノム共通後部と画像後部を統合します。
5つの異なる癌データセットでの方法の有効性をテストし、実験結果は、完全なモダリティと欠落したモダリティシナリオの両方でその優位性を示しています。

要約(オリジナル)

The integrative analysis of histopathological images and genomic data has received increasing attention for survival prediction of human cancers. However, the existing studies always hold the assumption that full modalities are available. As a matter of fact, the cost for collecting genomic data is high, which sometimes makes genomic data unavailable in testing samples. A common way of tackling such incompleteness is to generate the genomic representations from the pathology images. Nevertheless, such strategy still faces the following two challenges: (1) The gigapixel whole slide images (WSIs) are huge and thus hard for representation. (2) It is difficult to generate the genomic embeddings with diverse function categories in a unified generative framework. To address the above challenges, we propose a Conditional Latent Differentiation Variational AutoEncoder (LD-CVAE) for robust multimodal survival prediction, even with missing genomic data. Specifically, a Variational Information Bottleneck Transformer (VIB-Trans) module is proposed to learn compressed pathological representations from the gigapixel WSIs. To generate different functional genomic features, we develop a novel Latent Differentiation Variational AutoEncoder (LD-VAE) to learn the common and specific posteriors for the genomic embeddings with diverse functions. Finally, we use the product-of-experts technique to integrate the genomic common posterior and image posterior for the joint latent distribution estimation in LD-CVAE. We test the effectiveness of our method on five different cancer datasets, and the experimental results demonstrate its superiority in both complete and missing modality scenarios.

arxiv情報

著者 Junjie Zhou,Jiao Tang,Yingli Zuo,Peng Wan,Daoqiang Zhang,Wei Shao
発行日 2025-03-12 15:58:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Robust Multimodal Survival Prediction with the Latent Differentiation Conditional Variational AutoEncoder はコメントを受け付けていません