Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models

要約

大規模な自然なシーン画像で対比訓練された視覚エンコーダーの恩恵を受けて、大規模なマルチモーダルモデル(LMM)は、さまざまな視覚的知覚タスクで顕著なパフォーマンスを達成しています。
ただし、要約された説明に対する対照学習の固有の制限は、特に幾何学的な問題解決の重要なシナリオで、綿密な推論におけるモデルの能力を根本的に制限します。
幾何学的理解を高めるために、Vision Encoderの新しいハードネガティブコントラスト学習フレームワークを提案します。これは、摂動図生成コードによって作成された生成ベースのハードネガを使用して画像ベースの造影学習を組み合わせており、修正された地理学的説明から導出されたルールベースのネガを使用してテキストベースのネガティブを使用して、キャプチャの類似性に基づいて選択された回収ベースのネガティブを使用します。
強力なネガティブ学習方法、つまりMMCLIP(マルチモーダル数学クリップ)を使用してクリップをトレーニングし、その後、幾何学的な問題解決のためにLMMを訓練します。
実験では、訓練されたモデルであるMmgeolmが、3つの幾何学的推論ベンチマークで他のオープンソースモデルを大幅に上回ることが示されています。
7Bのサイズであっても、GPT-4Oのような強力なクローズドソースモデルに匹敵することができます。
さらに、さまざまな負のサンプル構築方法の影響と、LMMの幾何学的推論パフォーマンスに対する負のサンプルの数を研究し、実りある結論をもたらします。
コードとデータセットはhttps://github.com/thu-keg/mmgeolmで入手できます。

要約(オリジナル)

Benefiting from contrastively trained visual encoders on large-scale natural scene images, Large Multimodal Models (LMMs) have achieved remarkable performance across various visual perception tasks. However, the inherent limitations of contrastive learning upon summarized descriptions fundamentally restrict the capabilities of models in meticulous reasoning, particularly in crucial scenarios of geometric problem-solving. To enhance geometric understanding, we propose a novel hard negative contrastive learning framework for the vision encoder, which combines image-based contrastive learning using generation-based hard negatives created by perturbing diagram generation code, and text-based contrastive learning using rule-based negatives derived from modified geometric descriptions and retrieval-based negatives selected based on caption similarity. We train CLIP using our strong negative learning method, namely MMCLIP (Multimodal Math CLIP), and subsequently train an LMM for geometric problem-solving. Experiments show that our trained model, MMGeoLM, significantly outperforms other open-source models on three geometric reasoning benchmarks. Even with a size of 7B, it can rival powerful closed-source models like GPT-4o. We further study the impact of different negative sample construction methods and the number of negative samples on the geometric reasoning performance of LMM, yielding fruitful conclusions. The code and dataset are available at https://github.com/THU-KEG/MMGeoLM.

arxiv情報

著者 Kai Sun,Yushi Bai,Zhen Yang,Jiajie Zhang,Ji Qi,Lei Hou,Juanzi Li
発行日 2025-05-26 15:55:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models はコメントを受け付けていません

HunyuanVideo-Avatar: High-Fidelity Audio-Driven Human Animation for Multiple Characters

要約

近年、オーディオ駆動型の人間のアニメーションの大きな進歩が目撃されています。
ただし、(i)文字の一貫性を維持しながら、非常に動的なビデオを生成し、(ii)文字とオーディオの間の正確な感情アライメントを実現し、(iii)マルチキャラクターオーディオ駆動型のアニメーションを可能にすることにあります。
これらの課題に対処するために、動的、感情制御可能な、マルチキャラクターダイアログビデオを同時に生成できるマルチモーダル拡散トランス(MM-DIT)ベースのモデルであるHunyuanvideo-Avatarを提案します。
具体的には、Hunyuanvideo-Avatarは3つの重要な革新を導入します。(i)キャラクター画像インジェクションモジュールは、従来の追加ベースのキャラクターコンディショニングスキームを置き換えるように設計されており、トレーニングと推論の間の固有の条件の不一致を排除します。
これにより、動的な動きと強いキャラクターの一貫性が保証されます。
(ii)オーディオ感情モジュール(AEM)が導入され、感情の参照画像からターゲット生成ビデオに感情的な手がかりを抽出して転送し、微調整された正確な感情スタイルコントロールを可能にします。
(iii)潜在的なオーディオアダプター(FAA)が提案されており、オーディオ駆動型の文字を潜在レベルのフェイスマスクで分離し、マルチキャラクターシナリオの交差に関する独立したオーディオインジェクションを可能にします。
これらの革新により、Hunyuanvideo-Avatarは、ベンチマークデータセットと新たに提案された野生のデータセットで最新の方法を上回り、動的で没入型のシナリオで現実的なアバターを生成します。

要約(オリジナル)

Recent years have witnessed significant progress in audio-driven human animation. However, critical challenges remain in (i) generating highly dynamic videos while preserving character consistency, (ii) achieving precise emotion alignment between characters and audio, and (iii) enabling multi-character audio-driven animation. To address these challenges, we propose HunyuanVideo-Avatar, a multimodal diffusion transformer (MM-DiT)-based model capable of simultaneously generating dynamic, emotion-controllable, and multi-character dialogue videos. Concretely, HunyuanVideo-Avatar introduces three key innovations: (i) A character image injection module is designed to replace the conventional addition-based character conditioning scheme, eliminating the inherent condition mismatch between training and inference. This ensures the dynamic motion and strong character consistency; (ii) An Audio Emotion Module (AEM) is introduced to extract and transfer the emotional cues from an emotion reference image to the target generated video, enabling fine-grained and accurate emotion style control; (iii) A Face-Aware Audio Adapter (FAA) is proposed to isolate the audio-driven character with latent-level face mask, enabling independent audio injection via cross-attention for multi-character scenarios. These innovations empower HunyuanVideo-Avatar to surpass state-of-the-art methods on benchmark datasets and a newly proposed wild dataset, generating realistic avatars in dynamic, immersive scenarios.

arxiv情報

著者 Yi Chen,Sen Liang,Zixiang Zhou,Ziyao Huang,Yifeng Ma,Junshu Tang,Qin Lin,Yuan Zhou,Qinglin Lu
発行日 2025-05-26 15:57:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HunyuanVideo-Avatar: High-Fidelity Audio-Driven Human Animation for Multiple Characters はコメントを受け付けていません

STAR-R1: Spatial TrAnsformation Reasoning by Reinforcing Multimodal LLMs

要約

マルチモーダル大手言語モデル(MLLM)は、多様なタスク全体で顕著な能力を実証していますが、空間的推論では人間にかなり遅れています。
変換駆動型の視覚推論(TVR)を通じてこのギャップを調査します。これは、さまざまな視点で画像全体でオブジェクト変換を識別する必要がある挑戦的なタスクです。
従来の監視された微調整(SFT)は、クロスビュー設定でコヒーレントな推論パスを生成できませんが、スパースリワード補強学習(RL)は、非効率的な探索とゆっくりした収束に苦しんでいます。
これらの制限に対処するために、TVRに合わせて調整された細かい報酬メカニズムと単一段階のRLパラダイムを統合する新しいフレームワークであるStar-R1を提案します。
具体的には、STAR-R1は、過度の列挙と受動的不作為を罰し、効率的な調査と正確な推論を可能にしながら、部分的な正確性に報います。
包括的な評価は、STAR-R1が11のメトリックすべてで最先端のパフォーマンスを達成し、クロスビューシナリオでSFTを23%上回ることを示しています。
さらなる分析により、STAR-R1の擬人化された動作が明らかになり、空間推論を改善するためにすべてのオブジェクトを比較する独自の能力が強調されています。
私たちの仕事は、MLLMSと推論モデルの研究を進める上で重要な洞察を提供します。
コード、モデルの重み、およびデータは、https://github.com/zongzhao23/star-r1で公開されます。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities across diverse tasks, yet they lag significantly behind humans in spatial reasoning. We investigate this gap through Transformation-Driven Visual Reasoning (TVR), a challenging task requiring identification of object transformations across images under varying viewpoints. While traditional Supervised Fine-Tuning (SFT) fails to generate coherent reasoning paths in cross-view settings, sparse-reward Reinforcement Learning (RL) suffers from inefficient exploration and slow convergence. To address these limitations, we propose STAR-R1, a novel framework that integrates a single-stage RL paradigm with a fine-grained reward mechanism tailored for TVR. Specifically, STAR-R1 rewards partial correctness while penalizing excessive enumeration and passive inaction, enabling efficient exploration and precise reasoning. Comprehensive evaluations demonstrate that STAR-R1 achieves state-of-the-art performance across all 11 metrics, outperforming SFT by 23% in cross-view scenarios. Further analysis reveals STAR-R1’s anthropomorphic behavior and highlights its unique ability to compare all objects for improving spatial reasoning. Our work provides critical insights in advancing the research of MLLMs and reasoning models. The codes, model weights, and data will be publicly available at https://github.com/zongzhao23/STAR-R1.

arxiv情報

著者 Zongzhao Li,Zongyang Ma,Mingze Li,Songyou Li,Yu Rong,Tingyang Xu,Ziqi Zhang,Deli Zhao,Wenbing Huang
発行日 2025-05-26 16:00:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | STAR-R1: Spatial TrAnsformation Reasoning by Reinforcing Multimodal LLMs はコメントを受け付けていません

Long-Context State-Space Video World Models

要約

ビデオ拡散モデルは最近、アクションを条件とする自己回帰フレーム予測を通じて、世界モデリングの有望を示しています。
しかし、彼らは、注意層の拡張シーケンスを処理することに関連する高い計算コストのために、長期記憶を維持するのに苦労しています。
この制限を克服するために、計算効率を損なうことなく時間的メモリを拡張するために、状態空間モデル(SSM)を活用する新しいアーキテクチャを提案します。
非因果性視力課題のSSMを後付けする以前のアプローチとは異なり、我々の方法は、因果シーケンスモデリングにおけるSSMの固有の利点を完全に活用します。
私たちの設計の中心は、ブロックごとのSSMスキャンスキームであり、拡張された時間メモリの空間的一貫性を戦略的に交換し、連続フレーム間の一貫性を確保するために密集した局所的な注意と組み合わされます。
拡張された視野を介した空間検索および推論タスクを通じて、モデルの長期的なメモリ機能を評価します。
メモリ迷路とMinecraftデータセットの実験は、インタラクティブなアプリケーションに適した実用的な推論速度を維持しながら、私たちのアプローチが長距離メモリを維持する際にベースラインを上回ることを示しています。

要約(オリジナル)

Video diffusion models have recently shown promise for world modeling through autoregressive frame prediction conditioned on actions. However, they struggle to maintain long-term memory due to the high computational cost associated with processing extended sequences in attention layers. To overcome this limitation, we propose a novel architecture leveraging state-space models (SSMs) to extend temporal memory without compromising computational efficiency. Unlike previous approaches that retrofit SSMs for non-causal vision tasks, our method fully exploits the inherent advantages of SSMs in causal sequence modeling. Central to our design is a block-wise SSM scanning scheme, which strategically trades off spatial consistency for extended temporal memory, combined with dense local attention to ensure coherence between consecutive frames. We evaluate the long-term memory capabilities of our model through spatial retrieval and reasoning tasks over extended horizons. Experiments on Memory Maze and Minecraft datasets demonstrate that our approach surpasses baselines in preserving long-range memory, while maintaining practical inference speeds suitable for interactive applications.

arxiv情報

著者 Ryan Po,Yotam Nitzan,Richard Zhang,Berlin Chen,Tri Dao,Eli Shechtman,Gordon Wetzstein,Xun Huang
発行日 2025-05-26 16:12:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Long-Context State-Space Video World Models はコメントを受け付けていません

AW-GATCN: Adaptive Weighted Graph Attention Convolutional Network for Event Camera Data Joint Denoising and Object Recognition

要約

輝度が高い時間分解能で変化するイベントカメラは、本質的に重要なオブジェクト構造を超えてかなりの量の冗長でノイズの多いデータを生成します。
イベントベースのオブジェクト認識の主な課題は、重要な空間的情報を失うことなく、このノイズを効果的に除去することにあります。
これに対処するために、イベントベースのオブジェクト認識のための適応グラフベースのノイズの多いデータ削除フレームワークを提案します。
具体的には、私たちのアプローチは、正規化された密度分析、多因子エッジ重視メカニズム、および適応型グラフベースの除去戦略に基づいて、適応イベントセグメンテーションを統合します。
これらの革新は、時空間情報の統合を大幅に強化し、堅牢な認識のために重要な構造的特徴を維持しながら、ノイズを効果的にフィルタリングします。
4つの挑戦的なデータセットでの実験的評価は、私たちの方法が83.77%、76.79%、99.30%、および96.89%の優れた認識精度を達成し、既存のグラフベースの方法を最大8.79%上回り、騒音低減パフォーマンスを最大19.57%上回り、従来のユーークリディアンの技術を比較して6.26%の精度を獲得することを示しています。

要約(オリジナル)

Event cameras, which capture brightness changes with high temporal resolution, inherently generate a significant amount of redundant and noisy data beyond essential object structures. The primary challenge in event-based object recognition lies in effectively removing this noise without losing critical spatial-temporal information. To address this, we propose an Adaptive Graph-based Noisy Data Removal framework for Event-based Object Recognition. Specifically, our approach integrates adaptive event segmentation based on normalized density analysis, a multifactorial edge-weighting mechanism, and adaptive graph-based denoising strategies. These innovations significantly enhance the integration of spatiotemporal information, effectively filtering noise while preserving critical structural features for robust recognition. Experimental evaluations on four challenging datasets demonstrate that our method achieves superior recognition accuracies of 83.77%, 76.79%, 99.30%, and 96.89%, surpassing existing graph-based methods by up to 8.79%, and improving noise reduction performance by up to 19.57%, with an additional accuracy gain of 6.26% compared to traditional Euclidean-based techniques.

arxiv情報

著者 Haiyu Li,Charith Abhayaratne
発行日 2025-05-26 16:26:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | AW-GATCN: Adaptive Weighted Graph Attention Convolutional Network for Event Camera Data Joint Denoising and Object Recognition はコメントを受け付けていません

EVM-Fusion: An Explainable Vision Mamba Architecture with Neural Algorithmic Fusion

要約

医療画像の分類は臨床的意思決定には重要ですが、正確性、解釈可能性、一般化に対する要求は依然として困難です。
このペーパーでは、マルチオルガンの医療画像分類のための新しい神経アルゴリズム融合(NAF)メカニズムを特徴とする説明可能なビジョンMAMBAアーキテクチャであるEVM融合を紹介します。
EVM融合は、Vision Mamba(VIM)モジュールによって強化されたDensenetおよびU-Netベースの経路が、従来の特徴経路と並行して動作するマルチパスデザインを活用します。
これらの多様な機能は、2段階の融合プロセスを介して動的に統合されています。クロスモーダルの注意に続いて、適応融合アルゴリズムを学習する反復NAFブロックが続きます。
内因性の説明可能性は、パス固有の空間的注意、vim {\ delta}値マップ、従来の特徴セーテンション、およびクロスモーダルの注意の重量を通じて埋め込まれています。
多様な9クラスのマルチオルガン医療画像データセットの実験は、EVM融合の強力な分類パフォーマンスを実証し、99.75%のテスト精度を達成し、意思決定プロセスに関する多面的な洞察を提供し、医療診断における信頼できるAIの可能性を強調しています。

要約(オリジナル)

Medical image classification is critical for clinical decision-making, yet demands for accuracy, interpretability, and generalizability remain challenging. This paper introduces EVM-Fusion, an Explainable Vision Mamba architecture featuring a novel Neural Algorithmic Fusion (NAF) mechanism for multi-organ medical image classification. EVM-Fusion leverages a multipath design, where DenseNet and U-Net based pathways, enhanced by Vision Mamba (Vim) modules, operate in parallel with a traditional feature pathway. These diverse features are dynamically integrated via a two-stage fusion process: cross-modal attention followed by the iterative NAF block, which learns an adaptive fusion algorithm. Intrinsic explainability is embedded through path-specific spatial attention, Vim {\Delta}-value maps, traditional feature SE-attention, and cross-modal attention weights. Experiments on a diverse 9-class multi-organ medical image dataset demonstrate EVM-Fusion’s strong classification performance, achieving 99.75% test accuracy and provide multi-faceted insights into its decision-making process, highlighting its potential for trustworthy AI in medical diagnostics.

arxiv情報

著者 Zichuan Yang
発行日 2025-05-26 16:40:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | EVM-Fusion: An Explainable Vision Mamba Architecture with Neural Algorithmic Fusion はコメントを受け付けていません

PathBench: A comprehensive comparison benchmark for pathology foundation models towards precision oncology

要約

Pathology Foundationモデルの出現は、計算組織病理学に革命をもたらし、癌診断を改善し、予後評価のために非常に正確で一般化された全面画像分析を可能にします。
これらのモデルは、がんの診断と予後全体で顕著な可能性を示していますが、臨床翻訳は、がんタイプにわたる最適モデルの変動性、評価における潜在的なデータ漏れ、標準化されたベンチマークの欠如など、重要な課題に直面しています。
厳密で公平な評価がなければ、最も高度なPFMSリスクでさえ、研究環境に限定され、命を救うアプリケーションを遅らせます。
既存のベンチマークの取り組みは、狭いがん型の焦点、潜在的な事前トレーニングデータのオーバーラップ、または不完全なタスクカバレッジにより、引き続き制限されています。
これらのギャップに対処する最初の包括的なベンチマークであるPathBenchを提示します。厳密な漏れ防止を伴う共通の癌にまたがるマルチセンターインハースデータセット、診断から予後までの完全な臨床スペクトル全体の評価、および継続的なモデル評価のための自動リーダーボードシステム。
当社のフレームワークには、大規模なデータが組み込まれており、実際の臨床的複雑さを反映しながらPFMの客観的な比較を可能にします。
すべての評価データは、データの漏れリスクを回避するために、事前トレーニング使用を厳密に除外して、民間の医療提供者から来ています。
10人の病院の8,549人の患者から15,888人のWSIを収集し、64人以上の診断と予後のタスクを網羅しています。
現在、19のPFMの評価は、Virchow2とH-Optimus-1が全体的に最も効果的なモデルであることを示しています。
この作業は、研究者にモデル開発のための堅牢なプラットフォームを提供し、多様な臨床シナリオ全体でPFMパフォーマンスに関する臨床医の実用的な洞察を提供し、最終的にこれらの変換技術の日常的な病理学の実践への翻訳を加速させます。

要約(オリジナル)

The emergence of pathology foundation models has revolutionized computational histopathology, enabling highly accurate, generalized whole-slide image analysis for improved cancer diagnosis, and prognosis assessment. While these models show remarkable potential across cancer diagnostics and prognostics, their clinical translation faces critical challenges including variability in optimal model across cancer types, potential data leakage in evaluation, and lack of standardized benchmarks. Without rigorous, unbiased evaluation, even the most advanced PFMs risk remaining confined to research settings, delaying their life-saving applications. Existing benchmarking efforts remain limited by narrow cancer-type focus, potential pretraining data overlaps, or incomplete task coverage. We present PathBench, the first comprehensive benchmark addressing these gaps through: multi-center in-hourse datasets spanning common cancers with rigorous leakage prevention, evaluation across the full clinical spectrum from diagnosis to prognosis, and an automated leaderboard system for continuous model assessment. Our framework incorporates large-scale data, enabling objective comparison of PFMs while reflecting real-world clinical complexity. All evaluation data comes from private medical providers, with strict exclusion of any pretraining usage to avoid data leakage risks. We have collected 15,888 WSIs from 8,549 patients across 10 hospitals, encompassing over 64 diagnosis and prognosis tasks. Currently, our evaluation of 19 PFMs shows that Virchow2 and H-Optimus-1 are the most effective models overall. This work provides researchers with a robust platform for model development and offers clinicians actionable insights into PFM performance across diverse clinical scenarios, ultimately accelerating the translation of these transformative technologies into routine pathology practice.

arxiv情報

著者 Jiabo Ma,Yingxue Xu,Fengtao Zhou,Yihui Wang,Cheng Jin,Zhengrui Guo,Jianfeng Wu,On Ki Tang,Huajun Zhou,Xi Wang,Luyang Luo,Zhengyu Zhang,Du Cai,Zizhao Gao,Wei Wang,Yueping Liu,Jiankun He,Jing Cui,Zhenhui Li,Jing Zhang,Feng Gao,Xiuming Zhang,Li Liang,Ronald Cheong Kin Chan,Zhe Wang,Hao Chen
発行日 2025-05-26 16:42:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PathBench: A comprehensive comparison benchmark for pathology foundation models towards precision oncology はコメントを受け付けていません

Probabilistic Interactive 3D Segmentation with Hierarchical Neural Processes

要約

インタラクティブな3Dセグメンテーションは、ユーザーが提供するクリックを組み込むことにより、複雑な3Dシーンで正確なオブジェクトマスクを生成するための有望なソリューションとして浮上しています。
ただし、2つの重要な課題は未定のままです。(1)まばらなユーザークリックから効果的に一般化して正確なセグメンテーションを作成し、(2)予測不確実性を定量化して、信頼できない領域を特定するのに役立ちます。
この作業では、これらの課題に対処するために神経プロセス(NP)に基づいた新しい確率的フレームワークであるNPISEG3Dを提案します。
具体的には、NPISEG3Dは、グローバルコンテキストとオブジェクト固有の特性の両方をキャプチャすることにより、シーン固有およびオブジェクト固有の潜在変数を備えた階層的潜在変数構造を導入し、少数のショット一般化を強化します。
さらに、オブジェクト固有の潜在変数を使用してクリックプロトタイプを適応的に調整する確率的プロトタイプ変調器を設計し、オブジェクト認識コンテキストをキャプチャして予測的な不確実性を定量化するモデルの能力を向上させます。
4つの3Dポイントクラウドデータセットでの実験は、NPISEG3Dがクリックを減らしながら、信頼できる不確実性の推定を提供しながら優れたセグメンテーションパフォーマンスを達成することを示しています。

要約(オリジナル)

Interactive 3D segmentation has emerged as a promising solution for generating accurate object masks in complex 3D scenes by incorporating user-provided clicks. However, two critical challenges remain underexplored: (1) effectively generalizing from sparse user clicks to produce accurate segmentation, and (2) quantifying predictive uncertainty to help users identify unreliable regions. In this work, we propose NPISeg3D, a novel probabilistic framework that builds upon Neural Processes (NPs) to address these challenges. Specifically, NPISeg3D introduces a hierarchical latent variable structure with scene-specific and object-specific latent variables to enhance few-shot generalization by capturing both global context and object-specific characteristics. Additionally, we design a probabilistic prototype modulator that adaptively modulates click prototypes with object-specific latent variables, improving the model’s ability to capture object-aware context and quantify predictive uncertainty. Experiments on four 3D point cloud datasets demonstrate that NPISeg3D achieves superior segmentation performance with fewer clicks while providing reliable uncertainty estimations.

arxiv情報

著者 Jie Liu,Pan Zhou,Zehao Xiao,Jiayi Shen,Wenzhe Yin,Jan-Jakob Sonke,Efstratios Gavves
発行日 2025-05-26 16:46:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Probabilistic Interactive 3D Segmentation with Hierarchical Neural Processes はコメントを受け付けていません

Open the Eyes of MPNN: Vision Enhances MPNN in Link Prediction

要約

メッセージパスグラフニューラルネットワーク(MPNNS)と構造的特徴(SFS)は、リンク予測タスクの礎石です。
しかし、一般的で直感的な理解のモードとして、MPNNコミュニティでは視覚的認識の可能性が見落とされています。
初めて、より効率的なバリアント(E-GVN)とともに、Graph Vision Network(GVN)と呼ばれる効果的なフレームワークを提案することにより、MPNNに視覚構造認識を装備します。
広範な経験的結果は、提案されたフレームワークでは、GVNが大規模なグラフに挑戦するなど、7つのリンク予測データセットにわたるビジョン強化から一貫して利益を得ることを示しています。
このような改善は、既存の最先端(SOTA)メソッドと互換性があり、GVNは新しいSOTA結果を達成し、それによりリンク予測のための有望な新しい方向性を強調しています。

要約(オリジナル)

Message-passing graph neural networks (MPNNs) and structural features (SFs) are cornerstones for the link prediction task. However, as a common and intuitive mode of understanding, the potential of visual perception has been overlooked in the MPNN community. For the first time, we equip MPNNs with vision structural awareness by proposing an effective framework called Graph Vision Network (GVN), along with a more efficient variant (E-GVN). Extensive empirical results demonstrate that with the proposed frameworks, GVN consistently benefits from the vision enhancement across seven link prediction datasets, including challenging large-scale graphs. Such improvements are compatible with existing state-of-the-art (SOTA) methods and GVNs achieve new SOTA results, thereby underscoring a promising novel direction for link prediction.

arxiv情報

著者 Yanbin Wei,Xuehao Wang,Zhan Zhuang,Yang Chen,Shuhao Chen,Yulong Zhang,Yu Zhang,James Kwok
発行日 2025-05-26 17:01:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Open the Eyes of MPNN: Vision Enhances MPNN in Link Prediction はコメントを受け付けていません

Multimodal Federated Learning With Missing Modalities through Feature Imputation Network

要約

マルチモーダルフェデレーションラーニングは、生データを共有せずに複数のソースからコラボレーションモデルを協力してトレーニングモデルの大きな可能性を保持し、データ不足とプライバシーの懸念の両方に対処します。これは、ヘルスケアにおける2つの重要な課題です。
ヘルスケアにおけるマルチモーダルフェデレーションモデルのトレーニングにおける主要な課題は、臨床診療のばらつき、コストとアクセシビリティの制約、遡及的データ収集、プライバシーの懸念、技術的または人間的エラーなど、複数の理由によるモダリティの欠落の存在です。
以前の方法は通常、公開されている実際のデータセットまたは合成データに依存して、欠落したモダリティを補正します。
ただし、すべての疾患の実際のデータセットを取得することは非現実的であり、不足しているモダリティを合成するための生成モデルをトレーニングすることは計算高価であり、医療データの高次元によりエラーが発生しやすくなります。
この論文では、欠落しているモダリティのボトルネックの特徴を再構築するために、小説的で軽量の低次元機能翻訳者を提案します。
3つの異なるデータセット(MIMIC-CXR、NIH Open-I、Chexpert)での実験は、均一な設定と不均一な設定の両方で、競合ベースラインのパフォーマンスを一貫して改善します。
コードと実装の詳細は、https://github.com/bhattarailab/fedfeatgenで入手できます

要約(オリジナル)

Multimodal federated learning holds immense potential for collaboratively training models from multiple sources without sharing raw data, addressing both data scarcity and privacy concerns, two key challenges in healthcare. A major challenge in training multimodal federated models in healthcare is the presence of missing modalities due to multiple reasons, including variations in clinical practice, cost and accessibility constraints, retrospective data collection, privacy concerns, and occasional technical or human errors. Previous methods typically rely on publicly available real datasets or synthetic data to compensate for missing modalities. However, obtaining real datasets for every disease is impractical, and training generative models to synthesize missing modalities is computationally expensive and prone to errors due to the high dimensionality of medical data. In this paper, we propose a novel, lightweight, low-dimensional feature translator to reconstruct bottleneck features of the missing modalities. Our experiments on three different datasets (MIMIC-CXR, NIH Open-I, and CheXpert), in both homogeneous and heterogeneous settings consistently improve the performance of competitive baselines. The code and implementation details are available at: https://github.com/bhattarailab/FedFeatGen

arxiv情報

著者 Pranav Poudel,Aavash Chhetri,Prashnna Gyawali,Georgios Leontidis,Binod Bhattarai
発行日 2025-05-26 17:11:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Multimodal Federated Learning With Missing Modalities through Feature Imputation Network はコメントを受け付けていません