CrowdSplat: Exploring Gaussian Splatting For Crowd Rendering

要約

CrowdSplatを提示します。これは、3D Gaussian Splattingをリアルタイムで高品質のクラウドレンダリングに活用する斬新なアプローチです。
私たちの方法は、3Dガウス関数を利用して、モノクラービデオから抽出された多様なポーズや衣装でアニメーション化された人間のキャラクターを表します。
詳細レベル(LOD)レンダリングを統合して、計算効率と品質を最適化します。
CrowdSplatフレームワークは、(1)アバター再建と(2)クラウドシンシシスの2つの段階で構成されています。
フレームワークは、スケーラビリティを向上させるためにGPUメモリ使用量にも最適化されています。
定量的および定性的評価は、CrowdSplatが品質、メモリ効率、および計算パフォーマンスをレンダリングする良いレベルを達成することを示しています。
これらの実験を通じて、CrowdSplatは、リアルタイムアプリケーションでの動的で現実的なクラウドシミュレーションの実行可能なソリューションであることを実証します。

要約(オリジナル)

We present CrowdSplat, a novel approach that leverages 3D Gaussian Splatting for real-time, high-quality crowd rendering. Our method utilizes 3D Gaussian functions to represent animated human characters in diverse poses and outfits, which are extracted from monocular videos. We integrate Level of Detail (LoD) rendering to optimize computational efficiency and quality. The CrowdSplat framework consists of two stages: (1) avatar reconstruction and (2) crowd synthesis. The framework is also optimized for GPU memory usage to enhance scalability. Quantitative and qualitative evaluations show that CrowdSplat achieves good levels of rendering quality, memory efficiency, and computational performance. Through these experiments, we demonstrate that CrowdSplat is a viable solution for dynamic, realistic crowd simulation in real-time applications.

arxiv情報

著者 Xiaohan Sun,Yinghan Xu,John Dingliana,Carol O’Sullivan
発行日 2025-03-04 16:25:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CrowdSplat: Exploring Gaussian Splatting For Crowd Rendering はコメントを受け付けていません

VILA-U: a Unified Foundation Model Integrating Visual Understanding and Generation

要約

Vila-Uは、ビデオ、画像、言語の理解、および生成を統合する統合された基礎モデルです。
従来の視覚言語モデル(VLM)は、視覚コンテンツを理解および生成するために個別のモジュールを使用します。これにより、不整合と複雑さが増加する可能性があります。
対照的に、Vila-Uは、両方のタスクに対して単一の自己回帰の次のトークン予測フレームワークを採用しており、拡散モデルなどの追加コンポーネントの必要性を排除します。
このアプローチは、モデルを簡素化するだけでなく、視覚的な言語の理解と生成における最先端のパフォーマンスを達成します。
Vila-Uの成功は、2つの主な要因に起因しています。視覚的知覚を高め、自己回帰画像生成が高品質のデータセットを持つ拡散モデルと同様の品質を達成することができる、前提条件中に個別の視覚トークンをテキスト入力と並べる統一されたビジョンタワーです。
これにより、VILA-Uは、完全なトークンベースのオートルーリスションフレームワークを使用して、より複雑なモデルと同等に実行できます。

要約(オリジナル)

VILA-U is a Unified foundation model that integrates Video, Image, Language understanding and generation. Traditional visual language models (VLMs) use separate modules for understanding and generating visual content, which can lead to misalignment and increased complexity. In contrast, VILA-U employs a single autoregressive next-token prediction framework for both tasks, eliminating the need for additional components like diffusion models. This approach not only simplifies the model but also achieves near state-of-the-art performance in visual language understanding and generation. The success of VILA-U is attributed to two main factors: the unified vision tower that aligns discrete visual tokens with textual inputs during pretraining, which enhances visual perception, and autoregressive image generation can achieve similar quality as diffusion models with high-quality dataset. This allows VILA-U to perform comparably to more complex models using a fully token-based autoregressive framework.

arxiv情報

著者 Yecheng Wu,Zhuoyang Zhang,Junyu Chen,Haotian Tang,Dacheng Li,Yunhao Fang,Ligeng Zhu,Enze Xie,Hongxu Yin,Li Yi,Song Han,Yao Lu
発行日 2025-03-04 16:31:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | VILA-U: a Unified Foundation Model Integrating Visual Understanding and Generation はコメントを受け付けていません

Undertrained Image Reconstruction for Realistic Degradation in Blind Image Super-Resolution

要約

ほとんどの超解像度(SR)モデルは、実際の低解像度(LR)画像と格闘しています。
合成データセットの分解特性は、実際のLR画像の劣化特性と異なるため、この問題が発生します。
SRモデルは、ダウンサンプリングによって生成された高解像度(HR)とLR画像のペアでトレーニングされているため、単純な劣化のために最適化されています。
ただし、実際のLR画像には、イメージングプロセスやJPEG圧縮などの要因によって引き起こされる複雑な分解が含まれています。
これらの分解特性の違いにより、ほとんどのSRモデルは、実際のLR画像ではあまり機能しません。
この調査では、訓練されていない画像再構成モデ​​ルを使用したデータセット生成方法を提案しています。
これらのモデルには、入力画像からの多様な劣化を伴う低品質の画像を再構築する特性があります。
このプロパティを活用することにより、この研究では、HR画像から多様な劣化を伴うLR画像を生成して、データセットを構築します。
生成されたデータセットでの事前訓練を受けたSRモデルを微調整すると、ノイズの除去とぼやけの減少が改善され、実際のLR画像のパフォーマンスが向上します。
さらに、データセットの分析により、分解の多様性がパフォーマンスの改善に寄与しているのに対し、HRとLR画像の色の違いはパフォーマンスを低下させる可能性があることが明らかになります。
11ページ(11の図と2つのテーブル)

要約(オリジナル)

Most super-resolution (SR) models struggle with real-world low-resolution (LR) images. This issue arises because the degradation characteristics in the synthetic datasets differ from those in real-world LR images. Since SR models are trained on pairs of high-resolution (HR) and LR images generated by downsampling, they are optimized for simple degradation. However, real-world LR images contain complex degradation caused by factors such as the imaging process and JPEG compression. Due to these differences in degradation characteristics, most SR models perform poorly on real-world LR images. This study proposes a dataset generation method using undertrained image reconstruction models. These models have the property of reconstructing low-quality images with diverse degradation from input images. By leveraging this property, this study generates LR images with diverse degradation from HR images to construct the datasets. Fine-tuning pre-trained SR models on our generated datasets improves noise removal and blur reduction, enhancing performance on real-world LR images. Furthermore, an analysis of the datasets reveals that degradation diversity contributes to performance improvements, whereas color differences between HR and LR images may degrade performance. 11 pages, (11 figures and 2 tables)

arxiv情報

著者 Ru Ito,Supatta Viriyavisuthisakul,Kazuhiko Kawamoto,Hiroshi Kera
発行日 2025-03-04 16:33:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Undertrained Image Reconstruction for Realistic Degradation in Blind Image Super-Resolution はコメントを受け付けていません

Exploring Advanced Techniques for Visual Question Answering: A Comprehensive Comparison

要約

視覚的な質問応答(VQA)は、コンピュータービジョンと自然言語処理の交差点における極めて重要なタスクとして浮上しており、自然言語の質問に応じて視覚コンテンツを理解し、推論する必要があります。
VQAデータセットの分析は、マルチモーダル推論の複雑さを処理できる堅牢なモデルを開発するために不可欠です。
これらのデータセットを調べるためにいくつかのアプローチが開発されており、それぞれが疑問の多様性、回答分布、視覚的テキスト相関に関する明確な視点を提供します。
大幅に進歩したにもかかわらず、既存のVQAモデルは、データセットバイアス、制限されたモデルの複雑さ、常識的な推論ギャップ、厳格な評価方法、および実世界のシナリオへの一般化に関連する課題に直面しています。
このホワイトペーパーでは、元のVQAデータセット、ベースラインモデル、および方法の詳細な研究と、ABC-CNN、KICNLE、MASKED VISIONおよびLANGUAGE MODENING、BLIP-2、およびOFAの5つの高度なVQAモデルの比較研究を提供します。

要約(オリジナル)

Visual Question Answering (VQA) has emerged as a pivotal task in the intersection of computer vision and natural language processing, requiring models to understand and reason about visual content in response to natural language questions. Analyzing VQA datasets is essential for developing robust models that can handle the complexities of multimodal reasoning. Several approaches have been developed to examine these datasets, each offering distinct perspectives on question diversity, answer distribution, and visual-textual correlations. Despite significant progress, existing VQA models face challenges related to dataset bias, limited model complexity, commonsense reasoning gaps, rigid evaluation methods, and generalization to real world scenarios. This paper offers a detailed study of the original VQA dataset, baseline models and methods along with a comparative study of five advanced VQA models, ABC-CNN, KICNLE, Masked Vision and Language Modeling, BLIP-2, and OFA, each employing distinct methods to address these ongoing challenges.

arxiv情報

著者 Aiswarya Baby,Tintu Thankom Koshy
発行日 2025-03-04 16:43:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.ET, cs.LG | Exploring Advanced Techniques for Visual Question Answering: A Comprehensive Comparison はコメントを受け付けていません

Efficient Connectivity-Preserving Instance Segmentation with Supervoxel-Based Loss Function

要約

ニューロンとその長距離投影軸索の複雑な局所形態を再構築すると、神経科学における多くの接続に関連する質問に対処できます。
Connectomicsパイプラインの主要なボトルネックは、複数の絡み合ったニューロン角が挑戦的なインスタンスセグメンテーションの問題であるため、トポロジーエラーを修正することです。
より広く、曲線的な糸状構造のセグメンテーションは、引き続き大きな課題をもたらし続けています。
この問題に対処するために、デジタルトポロジーから接続されたボクセル(つまり、スーパーオクセル)までの単純なポイントの概念を拡張し、最小限の計算オーバーヘッドでトポロジを認識したニューラルネットワークセグメンテーション法を提案します。
マウス脳の3D光顕微鏡画像の新しいパブリックデータセットと、ベンチマークデータセットドライブ、ISBI12、およびクラックツリーに加えて、その有効性を示します。

要約(オリジナル)

Reconstructing the intricate local morphology of neurons and their long-range projecting axons can address many connectivity related questions in neuroscience. The main bottleneck in connectomics pipelines is correcting topological errors, as multiple entangled neuronal arbors is a challenging instance segmentation problem. More broadly, segmentation of curvilinear, filamentous structures continues to pose significant challenges. To address this problem, we extend the notion of simple points from digital topology to connected sets of voxels (i.e. supervoxels) and propose a topology-aware neural network segmentation method with minimal computational overhead. We demonstrate its effectiveness on a new public dataset of 3-d light microscopy images of mouse brains, along with the benchmark datasets DRIVE, ISBI12, and CrackTree.

arxiv情報

著者 Anna Grim,Jayaram Chandrashekar,Uygar Sumbul
発行日 2025-03-04 16:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, q-bio.NC | Efficient Connectivity-Preserving Instance Segmentation with Supervoxel-Based Loss Function はコメントを受け付けていません

A Causal Framework for Aligning Image Quality Metrics and Deep Neural Network Robustness

要約

画質は、深いニューラルネットワーク(DNNS)のパフォーマンスにおいて重要な役割を果たし、DNNSは画像条件の変化に感度を示すことが広く示されています。
大規模なデータセットには、DNNのパフォーマンスと堅牢性をよりよく特徴付けるために、基礎となる品質分布を定量化および理解する必要性を促す幅広い条件下で画像が含まれていることがよくあります。
画質メトリックとDNNSの感度を調整することで、品質の推定が、データでトレーニング/評価されたタスクモデルとは無関係に画像/データセットの難易度のプロキシとして機能することが保証されます。
従来の画像品質評価(IQA)は、人間の知覚的判断と比較して品質を測定して調整しようとしていますが、ここでは、イメージング条件に敏感であるだけでなく、DNNの感受性に適した品質測定を求めています。
最初に、従来のIQAメトリックがDNNパフォーマンスについても有益であるかどうかを尋ねます。
この質問に答えるために、IQAを因果的な観点から再構成し、品質指標がDNNパフォーマンスを予測する条件を調べます。
現在のIQAメトリックが分類のコンテキストでDNNパフォーマンスの弱い予測因子であることを理論的および経験的に示します。
次に、因果フレームワークを使用して、代替の定式化と、DNNパフォーマンスとより強く相関し、新しいタスクモデルをトレーニングせずにパフォーマンスの事前に機能する新しい画質メトリックを提供します。
私たちのアプローチは、データセット構成とDNNパフォーマンスの関係を特徴付けるために、大規模な画像データセットの品質分布を直接推定する手段を提供します。

要約(オリジナル)

Image quality plays an important role in the performance of deep neural networks (DNNs) and DNNs have been widely shown to exhibit sensitivity to changes in imaging conditions. Large-scale datasets often contain images under a wide range of conditions prompting a need to quantify and understand their underlying quality distribution in order to better characterize DNN performance and robustness. Aligning the sensitivities of image quality metrics and DNNs ensures that estimates of quality can act as proxies for image/dataset difficulty independent of the task models trained/evaluated on the data. Conventional image quality assessment (IQA) seeks to measure and align quality relative to human perceptual judgments, but here we seek a quality measure that is not only sensitive to imaging conditions but also well-aligned with DNN sensitivities. We first ask whether conventional IQA metrics are also informative of DNN performance. In order to answer this question, we reframe IQA from a causal perspective and examine conditions under which quality metrics are predictive of DNN performance. We show theoretically and empirically that current IQA metrics are weak predictors of DNN performance in the context of classification. We then use our causal framework to provide an alternative formulation and a new image quality metric that is more strongly correlated with DNN performance and can act as a prior on performance without training new task models. Our approach provides a means to directly estimate the quality distribution of large-scale image datasets towards characterizing the relationship between dataset composition and DNN performance.

arxiv情報

著者 Nathan Drenkow,Mathias Unberath
発行日 2025-03-04 17:15:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | A Causal Framework for Aligning Image Quality Metrics and Deep Neural Network Robustness はコメントを受け付けていません

MX-Font++: Mixture of Heterogeneous Aggregation Experts for Few-shot Font Generation

要約

少数のフォント生成(FFG)は、限られた参照グリフを使用して新しいフォントライブラリを作成することを目的としています。特に多言語の人工知能システムでは、低リソース言語のデジタルアクセシビリティとエクイティに重要なアプリケーションを備えています。
既存の方法では有望なパフォーマンスが示されていますが、リソースの低い言語で目に見えないキャラクターへの移行は、特にトレーニングセット間でフォントグリフがかなり異なる場合、依然として重要な課題のままです。
MX-Fontは、ローカルコンポーネントの観点からキャラクターの内容を考慮し、専門家(MOE)アプローチの混合を使用して、コンポーネントを適応的に抽出してより良い遷移を抽出します。
ただし、堅牢な特徴抽出器がないため、コンテンツとスタイルを適切に切り離すことができず、最適な生成の結果につながります。
これらの問題を軽減するために、不均一な集合体の専門家(HAE)を提案します。これは、チャネルと空間的寸法の情報を集約できるようになってコンテンツとスタイルを分離するのに役立つ強力な機能抽出の専門家です。
さらに、解明を強化するために、新しいコンテンツスタイルの均一性の損失を提案します。
いくつかのデータセットでの広範な実験は、MX-Font ++がFFGで優れた視覚的結果をもたらし、最先端の方法を効果的に上回ることを示しています。
コードとデータは、https://github.com/stephensun11/mxfontppで入手できます。

要約(オリジナル)

Few-shot Font Generation (FFG) aims to create new font libraries using limited reference glyphs, with crucial applications in digital accessibility and equity for low-resource languages, especially in multilingual artificial intelligence systems. Although existing methods have shown promising performance, transitioning to unseen characters in low-resource languages remains a significant challenge, especially when font glyphs vary considerably across training sets. MX-Font considers the content of a character from the perspective of a local component, employing a Mixture of Experts (MoE) approach to adaptively extract the component for better transition. However, the lack of a robust feature extractor prevents them from adequately decoupling content and style, leading to sub-optimal generation results. To alleviate these problems, we propose Heterogeneous Aggregation Experts (HAE), a powerful feature extraction expert that helps decouple content and style downstream from being able to aggregate information in channel and spatial dimensions. Additionally, we propose a novel content-style homogeneity loss to enhance the untangling. Extensive experiments on several datasets demonstrate that our MX-Font++ yields superior visual results in FFG and effectively outperforms state-of-the-art methods. Code and data are available at https://github.com/stephensun11/MXFontpp.

arxiv情報

著者 Weihang Wang,Duolin Sun,Jielei Zhang,Longwen Gao
発行日 2025-03-04 17:18:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MX-Font++: Mixture of Heterogeneous Aggregation Experts for Few-shot Font Generation はコメントを受け付けていません

Robust Long-Range Perception Against Sensor Misalignment in Autonomous Vehicles

要約

センサー融合の機械学習アルゴリズムの進歩により、他の道路利用者の検出と予測が大幅に改善され、安全性が向上しました。
ただし、センサーの配置に小さな角度変位でさえ、特に長距離での出力に大きな分解を引き起こす可能性があります。
この論文では、異なるセンサーのモダリティ間の不整合を検出するだけでなく、長期的な知覚のためにそれらに対しても堅牢であるシンプルでありながら一般的で効率的なマルチタスク学習アプローチを示します。
不整合の量に加えて、我々の方法はキャリブレーションされた不確実性も予測します。これは、時間の経過とともに予測された不整合値のフィルタリングと融合に役立ちます。
さらに、予測された不整合パラメーターを自己修正入力センサーデータに使用できることを示し、センサーの不整合の下での知覚パフォーマンスをさらに改善します。

要約(オリジナル)

Advances in machine learning algorithms for sensor fusion have significantly improved the detection and prediction of other road users, thereby enhancing safety. However, even a small angular displacement in the sensor’s placement can cause significant degradation in output, especially at long range. In this paper, we demonstrate a simple yet generic and efficient multi-task learning approach that not only detects misalignment between different sensor modalities but is also robust against them for long-range perception. Along with the amount of misalignment, our method also predicts calibrated uncertainty, which can be useful for filtering and fusing predicted misalignment values over time. In addition, we show that the predicted misalignment parameters can be used for self-correcting input sensor data, further improving the perception performance under sensor misalignment.

arxiv情報

著者 Zi-Xiang Xia,Sudeep Fadadu,Yi Shi,Louis Foucard
発行日 2025-03-04 17:23:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Robust Long-Range Perception Against Sensor Misalignment in Autonomous Vehicles はコメントを受け付けていません

EC-DIT: Scaling Diffusion Transformers with Adaptive Expert-Choice Routing

要約

拡散トランスは、テキスト間合成に広く採用されています。
これらのモデルを数十億のパラメーターまでスケーリングすることは有望ですが、現在のサイズを超えたスケーリングの有効性は、露出しておらず挑戦的なままです。
画像世代の計算不均一性を明示的に活用することにより、専門家の選択ルーティングを備えた拡散トランスのための新しい混合物(MOE)モデル(MOE)モデル(MOE)モデル(EC-DIT)の新しいファミリーを開発します。
EC-DITは、入力テキストを理解し、それぞれの画像パッチを生成するように割り当てられた計算を適応的に最適化することを学び、さまざまなテキストイメージの複雑さに合わせた不均一な計算を可能にします。
この不均一性は、最大970億のパラメーターまでのEC-DITをスケーリングし、トレーニングの収束、テキストから画像への調整、および密集したモデルおよび従来のMOEモデルよりも全体的な生成品質の大幅な改善を達成する効率的な方法を提供します。
広範なアブレーションを通じて、EC-DITは、エンドツーエンドトレーニングを通じてさまざまなテキストの重要性を認識することにより、優れたスケーラビリティと適応的な計算割り当てを実証することを示します。
特に、テキストから画像へのアラインメント評価では、最大のモデルは71.68%の最先端の遺伝的スコアを達成し、直感的な解釈可能性で競争力のある推論速度を維持しています。

要約(オリジナル)

Diffusion transformers have been widely adopted for text-to-image synthesis. While scaling these models up to billions of parameters shows promise, the effectiveness of scaling beyond current sizes remains underexplored and challenging. By explicitly exploiting the computational heterogeneity of image generations, we develop a new family of Mixture-of-Experts (MoE) models (EC-DIT) for diffusion transformers with expert-choice routing. EC-DIT learns to adaptively optimize the compute allocated to understand the input texts and generate the respective image patches, enabling heterogeneous computation aligned with varying text-image complexities. This heterogeneity provides an efficient way of scaling EC-DIT up to 97 billion parameters and achieving significant improvements in training convergence, text-to-image alignment, and overall generation quality over dense models and conventional MoE models. Through extensive ablations, we show that EC-DIT demonstrates superior scalability and adaptive compute allocation by recognizing varying textual importance through end-to-end training. Notably, in text-to-image alignment evaluation, our largest models achieve a state-of-the-art GenEval score of 71.68% and still maintain competitive inference speed with intuitive interpretability.

arxiv情報

著者 Haotian Sun,Tao Lei,Bowen Zhang,Yanghao Li,Haoshuo Huang,Ruoming Pang,Bo Dai,Nan Du
発行日 2025-03-04 17:23:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | EC-DIT: Scaling Diffusion Transformers with Adaptive Expert-Choice Routing はコメントを受け付けていません

AI-based association analysis for medical imaging using latent-space geometric confounder correction

要約

この研究では、人工知能ベースの医療画像分析における交絡効果と解釈可能性の課題に対処しています。
既存の文献は、潜在的な表現から交絡因子関連の情報を削除することで交絡を解決することがよくありますが、この戦略は生成モデルの画像再構成の品質に影響を与えるリスクがあり、機能の視覚化における適用性を制限します。
これに取り組むために、画像データの代替交絡因子のない表現を見つけながら、潜在的な表現に交絡関連情報を保持する別の戦略を提案します。
私たちのアプローチでは、自動エンコーダーの潜在スペースをベクトル空間と見なします。このスペースでは、学習ターゲット(t)や交絡因子(c)などのイメージング関連の変数が、変動性をキャプチャするベクトルを持っています。
交絡問題は、交絡因子に関連するベクトルに直交するが、ターゲット関連のベクトルと最大限に一致する交絡因子のないベクトルを検索することにより対処されます。
これを達成するために、潜在空間でベクトル検索を実行するだけでなく、変数と直線的に相関する潜在的な表現を生成することをエンコーダーに生成するように促す新しい相関ベースの損失を導入します。
その後、交絡因子のないベクトルに沿って画像をサンプリングおよび再構築することにより、交絡因子のない表現を解釈します。
提案された方法の有効性と柔軟性は、3つのアプリケーションにわたって実証されており、複数の交絡因子に対応し、多様な画像モダリティを利用しています。
結果は、交絡因子の影響を減らし、誤解や誤解を招く関連性を妨げ、臨床および疫学研究者による詳細な調査のためのユニークな視覚的解釈を提供する方法の有効性を確認します。
このコードは、次のgitlabリポジトリでリリースされています:https://gitlab.com/radiology/compopbio/ai_based_association_analysis}

要約(オリジナル)

This study addresses the challenges of confounding effects and interpretability in artificial-intelligence-based medical image analysis. Whereas existing literature often resolves confounding by removing confounder-related information from latent representations, this strategy risks affecting image reconstruction quality in generative models, thus limiting their applicability in feature visualization. To tackle this, we propose a different strategy that retains confounder-related information in latent representations while finding an alternative confounder-free representation of the image data. Our approach views the latent space of an autoencoder as a vector space, where imaging-related variables, such as the learning target (t) and confounder (c), have a vector capturing their variability. The confounding problem is addressed by searching a confounder-free vector which is orthogonal to the confounder-related vector but maximally collinear to the target-related vector. To achieve this, we introduce a novel correlation-based loss that not only performs vector searching in the latent space, but also encourages the encoder to generate latent representations linearly correlated with the variables. Subsequently, we interpret the confounder-free representation by sampling and reconstructing images along the confounder-free vector. The efficacy and flexibility of our proposed method are demonstrated across three applications, accommodating multiple confounders and utilizing diverse image modalities. Results affirm the method’s effectiveness in reducing confounder influences, preventing wrong or misleading associations, and offering a unique visual interpretation for in-depth investigations by clinical and epidemiological researchers. The code is released in the following GitLab repository: https://gitlab.com/radiology/compopbio/ai_based_association_analysis}

arxiv情報

著者 Xianjing Liu,Bo Li,Meike W. Vernooij,Eppo B. Wolvius,Gennady V. Roshchupkin,Esther E. Bron
発行日 2025-03-04 17:24:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | AI-based association analysis for medical imaging using latent-space geometric confounder correction はコメントを受け付けていません