Comparative Analysis of Machine Learning Models for Lung Cancer Mutation Detection and Staging Using 3D CT Scans

要約

肺がんは世界中の癌死亡率の主な原因であり、重要な突然変異と病期分類を検出するための非侵襲的方法は、患者の転帰を改善するために不可欠です。
ここでは、ドメイン固有の前提を備えた監視されたモデルであるFMCIB+XGBoostの2つの機械学習モデルのパフォーマンスと、スタンフォード放射性発生症および肺CT-PT-DX COHORTSからの3D肺結節データの注意ベースの複数インスタンス学習を備えた自己監視モデルであるDinoV2+Abmilを比較します。
KRASおよびEGFR変異検出のタスクでは、FMCIB+XGBOOSTは一貫してDINOV2+ABMILを上回り、KRASおよびEGFR変異でそれぞれ0.846および0.883の精度を達成しました。
がんの病期分類では、DinoV2+Abmilは競争的一般化を実証し、肺CT-PT-DXコホートのTステージ予測で0.797の精度を達成し、多様なデータセット全体でSSLの適応性を示唆しています。
我々の結果は、突然変異検出における監視されたモデルの臨床的有用性を強調し、SSLの段階的一般化を改善する可能性を強調し、突然変異感度の向上領域を特定します。

要約(オリジナル)

Lung cancer is the leading cause of cancer mortality worldwide, and non-invasive methods for detecting key mutations and staging are essential for improving patient outcomes. Here, we compare the performance of two machine learning models – FMCIB+XGBoost, a supervised model with domain-specific pretraining, and Dinov2+ABMIL, a self-supervised model with attention-based multiple-instance learning – on 3D lung nodule data from the Stanford Radiogenomics and Lung-CT-PT-Dx cohorts. In the task of KRAS and EGFR mutation detection, FMCIB+XGBoost consistently outperformed Dinov2+ABMIL, achieving accuracies of 0.846 and 0.883 for KRAS and EGFR mutations, respectively. In cancer staging, Dinov2+ABMIL demonstrated competitive generalization, achieving an accuracy of 0.797 for T-stage prediction in the Lung-CT-PT-Dx cohort, suggesting SSL’s adaptability across diverse datasets. Our results emphasize the clinical utility of supervised models in mutation detection and highlight the potential of SSL to improve staging generalization, while identifying areas for enhancement in mutation sensitivity.

arxiv情報

著者 Yiheng Li,Francisco Carrillo-Perez,Mohammed Alawad,Olivier Gevaert
発行日 2025-05-28 17:04:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Comparative Analysis of Machine Learning Models for Lung Cancer Mutation Detection and Staging Using 3D CT Scans はコメントを受け付けていません

SAM-R1: Leveraging SAM for Reward Feedback in Multimodal Segmentation via Reinforcement Learning

要約

画像セグメンテーションのためのマルチモーダル大規模モデルを活用することは、顕著な研究方向になりました。
ただし、通常、既存のアプローチは、コストがかかり、時間がかかる明示的な推論プロセスを含む手動で注釈付きのデータセットに大きく依存しています。
最近の進歩は、補強学習(RL)が、そのような推論が発表されたデータを必要とせずに、推論能力を大規模なモデルに委ねることができることを示唆しています。
このホワイトペーパーでは、マルチモーダルの大規模モデルが画像理解タスクで微調整された推論を実行できるようにする新しいフレームワークであるSAM-R1を提案します。
私たちのアプローチは、マルチモーダル推論モデルのトレーニング中に、細粒セグメンテーション設定を組み込んだ最初のアプローチです。
タスク固有の微細な報酬を調整された最適化目標と統合することにより、モデルの推論とセグメンテーションのアラインメントをさらに強化します。
また、学習プロセスを導くために、強力で柔軟な報酬プロバイダーとして、あらゆるモデル(SAM)をセグメントを活用します。
SAM-R1は3Kトレーニングサンプルのみで、複数のベンチマークにわたって強力なパフォーマンスを実現し、マルチモーダルモデルにセグメンテーション指向の推論機能を装備する際の強化学習の有効性を実証します。

要約(オリジナル)

Leveraging multimodal large models for image segmentation has become a prominent research direction. However, existing approaches typically rely heavily on manually annotated datasets that include explicit reasoning processes, which are costly and time-consuming to produce. Recent advances suggest that reinforcement learning (RL) can endow large models with reasoning capabilities without requiring such reasoning-annotated data. In this paper, we propose SAM-R1, a novel framework that enables multimodal large models to perform fine-grained reasoning in image understanding tasks. Our approach is the first to incorporate fine-grained segmentation settings during the training of multimodal reasoning models. By integrating task-specific, fine-grained rewards with a tailored optimization objective, we further enhance the model’s reasoning and segmentation alignment. We also leverage the Segment Anything Model (SAM) as a strong and flexible reward provider to guide the learning process. With only 3k training samples, SAM-R1 achieves strong performance across multiple benchmarks, demonstrating the effectiveness of reinforcement learning in equipping multimodal models with segmentation-oriented reasoning capabilities.

arxiv情報

著者 Jiaqi Huang,Zunnan Xu,Jun Zhou,Ting Liu,Yicheng Xiao,Mingwen Ou,Bowen Ji,Xiu Li,Kehong Yuan
発行日 2025-05-28 17:08:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SAM-R1: Leveraging SAM for Reward Feedback in Multimodal Segmentation via Reinforcement Learning はコメントを受け付けていません

An Effective Training Framework for Light-Weight Automatic Speech Recognition Models

要約

深い学習における最近の進歩により、計算およびメモリの制約を無視しながら有望な結果を達成する大規模な自動音声認識(ASR)モデルの開発が促進されました。
ただし、このようなモデルを低リソースデバイスに展開することは、好ましいパフォーマンスにもかかわらず実用的ではありません。
既存のアプローチ(剪定、蒸留、レイヤースキップなど)は、パフォーマンスの大幅な劣化を犠牲にして大きなモデルを小さなモデルに変換するか、より良いパフォーマンスのために小さなモデルの長期トレーニングを必要とします。
これらの問題に対処するために、限られた数のエポックでかなり良いパフォーマンスを確保するために、単一の大規模モデルからいくつかの小さなサイズのモデルを生成できる効果的な2段階表現学習ベースのアプローチを導入します。
ASRベンチマークでの包括的な実験は、私たちのアプローチの有効性を明らかにし、3倍のトレーニングスピードアップと最大12.54%のワードエラー率の改善を達成します。

要約(オリジナル)

Recent advancement in deep learning encouraged developing large automatic speech recognition (ASR) models that achieve promising results while ignoring computational and memory constraints. However, deploying such models on low resource devices is impractical despite of their favorable performance. Existing approaches (pruning, distillation, layer skip etc.) transform the large models into smaller ones at the cost of significant performance degradation or require prolonged training of smaller models for better performance. To address these issues, we introduce an efficacious two-step representation learning based approach capable of producing several small sized models from a single large model ensuring considerably better performance in limited number of epochs. Comprehensive experimentation on ASR benchmarks reveals the efficacy of our approach, achieving three-fold training speed-up and up to 12.54% word error rate improvement.

arxiv情報

著者 Abdul Hannan,Alessio Brutti,Shah Nawaz,Mubashir Noman
発行日 2025-05-28 17:19:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | An Effective Training Framework for Light-Weight Automatic Speech Recognition Models はコメントを受け付けていません

Adversarially Robust AI-Generated Image Detection for Free: An Information Theoretic Perspective

要約

人工知能生成画像(AIGI)の急速な進歩により、偽造や誤った情報などの悪意のある使用が促進されました。
したがって、偽の画像を検出するための多くの方法が提案されています。
このような検出器は、敵対的な攻撃に対して普遍的に脆弱であることが証明されていますが、この分野の防御は希少です。
この論文では、最初に、最も効果的な防御と広く見なされている敵対的な訓練(AT)が、AIGI検出のパフォーマンス崩壊に苦しんでいることを特定します。
情報理論的レンズを通じて、崩壊の原因は、特徴的な相互情報の保存を混乱させるエンタングルメントを特徴とするものと考えます。
代わりに、標準検出器は明確な特徴分離を示します。
この違いに動機付けられて、AIGI検出のための最初のトレーニングなしの敵対的防御である情報理論対策(TRIM)を介したトレーニングフリーの堅牢な検出を提案します。
予測エントロピーとKLの発散を使用して、標準検出器に基づいてトリムビルドを使用し、特徴シフトを定量化します。
複数のデータセットと攻撃にわたる広範な実験は、トリムの優位性を検証します。たとえば、最先端の防御をProgan(genimage)で33.88%(28.91%)よりも優れていますが、元の精度を維持します。

要約(オリジナル)

Rapid advances in Artificial Intelligence Generated Images (AIGI) have facilitated malicious use, such as forgery and misinformation. Therefore, numerous methods have been proposed to detect fake images. Although such detectors have been proven to be universally vulnerable to adversarial attacks, defenses in this field are scarce. In this paper, we first identify that adversarial training (AT), widely regarded as the most effective defense, suffers from performance collapse in AIGI detection. Through an information-theoretic lens, we further attribute the cause of collapse to feature entanglement, which disrupts the preservation of feature-label mutual information. Instead, standard detectors show clear feature separation. Motivated by this difference, we propose Training-free Robust Detection via Information-theoretic Measures (TRIM), the first training-free adversarial defense for AIGI detection. TRIM builds on standard detectors and quantifies feature shifts using prediction entropy and KL divergence. Extensive experiments across multiple datasets and attacks validate the superiority of our TRIM, e.g., outperforming the state-of-the-art defense by 33.88% (28.91%) on ProGAN (GenImage), while well maintaining original accuracy.

arxiv情報

著者 Ruixuan Zhang,He Wang,Zhengyu Zhao,Zhiqing Guo,Xun Yang,Yunfeng Diao,Meng Wang
発行日 2025-05-28 17:20:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Adversarially Robust AI-Generated Image Detection for Free: An Information Theoretic Perspective はコメントを受け付けていません

Chest Disease Detection In X-Ray Images Using Deep Learning Classification Method

要約

この作業では、複数の分類モデルのパフォーマンスを調査して、胸部X線画像をCovid-19、肺炎、結核(TB)、および正常症例の4つのカテゴリに分類します。
転送学習技術を、最先端の事前訓練を受けた畳み込みニューラルネットワーク(CNNS)モデルで活用しました。
これらの事前に訓練されたアーキテクチャを、ラベル付きの医療X線画像で微調整しました。
初期の結果は、精度、リコール、F1スコアなどの主要な分類メトリックで高精度と強力なパフォーマンスで有望です。
モデルの解釈可能性に勾配加重クラスの活性化マッピング(Grad-CAM)を適用して、分類決定の視覚的説明を提供し、臨床アプリケーションの信頼と透明性を向上させました。

要約(オリジナル)

In this work, we investigate the performance across multiple classification models to classify chest X-ray images into four categories of COVID-19, pneumonia, tuberculosis (TB), and normal cases. We leveraged transfer learning techniques with state-of-the-art pre-trained Convolutional Neural Networks (CNNs) models. We fine-tuned these pre-trained architectures on a labeled medical x-ray images. The initial results are promising with high accuracy and strong performance in key classification metrics such as precision, recall, and F1 score. We applied Gradient-weighted Class Activation Mapping (Grad-CAM) for model interpretability to provide visual explanations for classification decisions, improving trust and transparency in clinical applications.

arxiv情報

著者 Alanna Hazlett,Naomi Ohashi,Timothy Rodriguez,Sodiq Adewole
発行日 2025-05-28 17:24:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | Chest Disease Detection In X-Ray Images Using Deep Learning Classification Method はコメントを受け付けていません

Shielded Diffusion: Generating Novel and Diverse Images using Sparse Repellency

要約

テキスト間拡散モデルの採用は、信頼性に対する懸念を引き起こし、キャリブレーション、公平性、または計算効率などのさまざまなメトリックのレンズの下で精査を引き起こします。
この作業では、これらのモデルを展開するときに発生する2つの問題に焦点を当てています。画像を促すときの多様性の欠如と、トレーニングセットから画像を再現する傾向です。
両方の問題を解決するために、リファレンスセットの外側にある画像に着地するために、前処理された拡散モデルのサンプリングされた軌跡を共有する方法を提案します。
これは、パスがシールドされた参照セットの画像に近すぎると予想される場合はいつでもトリガーされる、生成軌道全体に拡散SDEに忌避条件を追加することで達成します。
私たちの方法は、ほとんどの場合、これらの忌避項がゼロで不活性であり、さらには世代の軌跡の終わりに向かっているという意味でまばらです。
スパースの忌避のための呪文という名前の私たちの方法は、保護された画像を含む静的参照セットで使用するか、各タイムステップのセットをバッチ内で同時に生成した予想画像と以前に生成されたバッチの画像で更新することにより、動的に動的に使用できます。
人気のある拡散モデルに呪文を追加すると、FIDにわずかに影響を与える一方で、多様性が向上し、他の最近のトレーニングなしの多様性方法よりも比較的優れたパフォーマンスを発揮することが示されています。
また、Imagenetのすべての1.2m画像を保護セットと見なすことにより、Spellが保護された画像の非常に大きなセットから保護された画像から離れて保護された世代を保証できる方法を示します。

要約(オリジナル)

The adoption of text-to-image diffusion models raises concerns over reliability, drawing scrutiny under the lens of various metrics like calibration, fairness, or compute efficiency. We focus in this work on two issues that arise when deploying these models: a lack of diversity when prompting images, and a tendency to recreate images from the training set. To solve both problems, we propose a method that coaxes the sampled trajectories of pretrained diffusion models to land on images that fall outside of a reference set. We achieve this by adding repellency terms to the diffusion SDE throughout the generation trajectory, which are triggered whenever the path is expected to land too closely to an image in the shielded reference set. Our method is sparse in the sense that these repellency terms are zero and inactive most of the time, and even more so towards the end of the generation trajectory. Our method, named SPELL for sparse repellency, can be used either with a static reference set that contains protected images, or dynamically, by updating the set at each timestep with the expected images concurrently generated within a batch, and with the images of previously generated batches. We show that adding SPELL to popular diffusion models improves their diversity while impacting their FID only marginally, and performs comparatively better than other recent training-free diversity methods. We also demonstrate how SPELL can ensure a shielded generation away from a very large set of protected images by considering all 1.2M images from ImageNet as the protected set.

arxiv情報

著者 Michael Kirchhof,James Thornton,Louis Béthune,Pierre Ablin,Eugene Ndiaye,Marco Cuturi
発行日 2025-05-28 17:28:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, stat.ML | Shielded Diffusion: Generating Novel and Diverse Images using Sparse Repellency はコメントを受け付けていません

RICO: Improving Accuracy and Completeness in Image Recaptioning via Visual Reconstruction

要約

画像の復帰は、さまざまなマルチモーダルタスクの品質が向上したトレーニングデータセットを生成するために広く使用されています。
既存の復帰方法は通常、テキストの説明を強化するために強力なマルチモーダル大手言語モデル(MLLM)に依存していますが、しばしば幻覚と細粒の詳細が欠落していることによって引き起こされる不完全性のために不正確さに苦しむことがよくあります。
これらの制限に対処するために、視覚的再構成を通じてキャプションを改良する新しいフレームワークであるRicoを提案します。
具体的には、テキストから画像へのモデルを活用してキャプションを参照画像に再構築し、MLLMに元の画像と再構築された画像間の不一致を特定してキャプションを改良するように促します。
このプロセスは繰り返し実行され、さらに忠実で包括的な説明の生成をさらに徐々に促進します。
反復プロセスによって引き起こされる追加の計算コストを軽減するために、DPOを使用してRICOなどのキャプションを生成することを学ぶRICO-Flashを導入します。
広範な実験は、私たちのアプローチがキャプションの精度と完全性を大幅に改善し、ほとんどのベースラインをCapsbenchとCombapの両方で約10%上回ることを示しています。
https://github.com/wangyuchi369/ricoでリリースされたコード。

要約(オリジナル)

Image recaptioning is widely used to generate training datasets with enhanced quality for various multimodal tasks. Existing recaptioning methods typically rely on powerful multimodal large language models (MLLMs) to enhance textual descriptions, but often suffer from inaccuracies due to hallucinations and incompleteness caused by missing fine-grained details. To address these limitations, we propose RICO, a novel framework that refines captions through visual reconstruction. Specifically, we leverage a text-to-image model to reconstruct a caption into a reference image, and prompt an MLLM to identify discrepancies between the original and reconstructed images to refine the caption. This process is performed iteratively, further progressively promoting the generation of more faithful and comprehensive descriptions. To mitigate the additional computational cost induced by the iterative process, we introduce RICO-Flash, which learns to generate captions like RICO using DPO. Extensive experiments demonstrate that our approach significantly improves caption accuracy and completeness, outperforms most baselines by approximately 10% on both CapsBench and CompreCap. Code released at https://github.com/wangyuchi369/RICO.

arxiv情報

著者 Yuchi Wang,Yishuo Cai,Shuhuai Ren,Sihan Yang,Linli Yao,Yuanxin Liu,Yuanxing Zhang,Pengfei Wan,Xu Sun
発行日 2025-05-28 17:29:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | RICO: Improving Accuracy and Completeness in Image Recaptioning via Visual Reconstruction はコメントを受け付けていません

PS4PRO: Pixel-to-pixel Supervision for Photorealistic Rendering and Optimization

要約

ニューラルレンダリング方法は、2D画像から3Dシーンを再構築する能力に大きな注目を集めています。
核となるアイデアは、複数のビューを入力として取得し、ビュー全体のジオメトリと外観の不確実性を最小限に抑えることにより、再構築されたシーンを最適化することです。
ただし、再構成の品質は入力ビューの数によって制限されます。
この制限は、オブジェクトの特定の角度が見られない複雑で動的なシーンでさらに顕著です。
この論文では、神経レンダリングのデータ増強方法としてビデオフレーム補間を使用することを提案します。
さらに、軽量でありながら高品質のビデオフレーム補間モデルであるPS4PRO(フォトリアリックなレンダリングと最適化のためのピクセルからピクセルの監督)を設計します。
PS4PROは、多様なビデオデータセットでトレーニングされており、カメラの動きと現実世界の3Dジオメトリを暗黙的にモデリングします。
私たちのモデルは、3D再構成のための写真監督を豊かにする、暗黙の世界の事前として機能します。
提案された方法を活用することにより、神経レンダリング方法の既存のデータセットを効果的に強化します。
実験結果は、この方法が静的シーンと動的シーンの両方での再構成パフォーマンスを改善することを示しています。

要約(オリジナル)

Neural rendering methods have gained significant attention for their ability to reconstruct 3D scenes from 2D images. The core idea is to take multiple views as input and optimize the reconstructed scene by minimizing the uncertainty in geometry and appearance across the views. However, the reconstruction quality is limited by the number of input views. This limitation is further pronounced in complex and dynamic scenes, where certain angles of objects are never seen. In this paper, we propose to use video frame interpolation as the data augmentation method for neural rendering. Furthermore, we design a lightweight yet high-quality video frame interpolation model, PS4PRO (Pixel-to-pixel Supervision for Photorealistic Rendering and Optimization). PS4PRO is trained on diverse video datasets, implicitly modeling camera movement as well as real-world 3D geometry. Our model performs as an implicit world prior, enriching the photo supervision for 3D reconstruction. By leveraging the proposed method, we effectively augment existing datasets for neural rendering methods. Our experimental results indicate that our method improves the reconstruction performance on both static and dynamic scenes.

arxiv情報

著者 Yezhi Shen,Qiuchen Zhai,Fengqing Zhu
発行日 2025-05-28 17:35:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | PS4PRO: Pixel-to-pixel Supervision for Photorealistic Rendering and Optimization はコメントを受け付けていません

Chain-of-Talkers (CoTalk): Fast Human Annotation of Dense Image Captions

要約

密に注釈付きの画像キャプションは、堅牢な視覚系のアラインメントの学習を大幅に促進しますが、人間の注釈の取り組みを体系的に最適化するための方法論は未熟なままです。
注釈付きサンプルの数を最大化し、固定された予算の制約(たとえば、人間の注釈時間の合計)の下で包括性を向上させるように設計されたAI-in-the-Loop方法論であるチェーンオブトーカー(Cotalk)を紹介します。
フレームワークは、2つの重要な洞察に基づいて構築されています。
第一に、後続のアノテーターは「残差」を注釈するだけであるため、従来の並列アノテーションと比較して冗長なワークロードを減少させます。
第二に、人間は、話を介してはるかに高いスループットで注釈を出力しながら読むことでテキスト入力をより速く処理します。
したがって、マルチモーダルインターフェイスにより、最適化された効率が可能になります。
2つの側面からフレームワークを評価します。詳細なキャプションをオブジェクトアトリブツリーに解析し、効果的な接続を分析することにより得られるセマンティックユニットの包括性を評価する本質的な評価。
外因性評価は、視覚言語のアライメントを促進する際に、注釈付きキャプションの実際的な使用を測定します。
8人の参加者を使用した実験では、私たちのトーカーのチェーン(cotalk)により、注釈速度(0.42対0.30単位/秒)が改善され、並列方法よりも検索性能(41.13 \%対40.52 \%)が改善されます。

要約(オリジナル)

While densely annotated image captions significantly facilitate the learning of robust vision-language alignment, methodologies for systematically optimizing human annotation efforts remain underexplored. We introduce Chain-of-Talkers (CoTalk), an AI-in-the-loop methodology designed to maximize the number of annotated samples and improve their comprehensiveness under fixed budget constraints (e.g., total human annotation time). The framework is built upon two key insights. First, sequential annotation reduces redundant workload compared to conventional parallel annotation, as subsequent annotators only need to annotate the “residual” — the missing visual information that previous annotations have not covered. Second, humans process textual input faster by reading while outputting annotations with much higher throughput via talking; thus a multimodal interface enables optimized efficiency. We evaluate our framework from two aspects: intrinsic evaluations that assess the comprehensiveness of semantic units, obtained by parsing detailed captions into object-attribute trees and analyzing their effective connections; extrinsic evaluation measures the practical usage of the annotated captions in facilitating vision-language alignment. Experiments with eight participants show our Chain-of-Talkers (CoTalk) improves annotation speed (0.42 vs. 0.30 units/sec) and retrieval performance (41.13\% vs. 40.52\%) over the parallel method.

arxiv情報

著者 Yijun Shen,Delong Chen,Fan Liu,Xingyu Wang,Chuanyi Zhang,Liang Yao,Yuhui Zheng
発行日 2025-05-28 17:45:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Chain-of-Talkers (CoTalk): Fast Human Annotation of Dense Image Captions はコメントを受け付けていません

Spatial Knowledge Graph-Guided Multimodal Synthesis

要約

マルチモーダル大手言語モデル(MLLM)の最近の進歩により、能力が大幅に向上しました。
ただし、彼らの空間的認識能力は引き続き顕著な制限です。
この課題に対処するために、マルチモーダルデータ合成は有望なソリューションを提供します。
しかし、合成されたデータが空間的常識に準拠することを保証することは、非自明なタスクです。
この作業では、知識からデータへの概念に基づいた空間知識グラフに導かれる新しいマルチモーダル合成アプローチであるSkg2Dataを紹介します。
SKG2DATAは、空間的知識グラフ(SKG)を自動的に構築して、空間的方向と距離の人間のような知覚をエミュレートします。これは、マルチモーダルデータ統合をガイドするために利用されます。
広範な実験は、MLLMの空間的認識と推論能力を高めるだけでなく、強力な一般化能力を示すだけでなく、方向や距離を含むさまざまなタイプの空間知識から合成されたデータを示しています。
知識ベースのデータ統合のアイデアが空間インテリジェンスの開発を進めることができることを願っています。

要約(オリジナル)

Recent advances in multimodal large language models (MLLMs) have significantly enhanced their capabilities; however, their spatial perception abilities remain a notable limitation. To address this challenge, multimodal data synthesis offers a promising solution. Yet, ensuring that synthesized data adhere to spatial common sense is a non-trivial task. In this work, we introduce SKG2Data, a novel multimodal synthesis approach guided by spatial knowledge graphs, grounded in the concept of knowledge-to-data generation. SKG2Data automatically constructs a Spatial Knowledge Graph (SKG) to emulate human-like perception of spatial directions and distances, which is subsequently utilized to guide multimodal data synthesis. Extensive experiments demonstrate that data synthesized from diverse types of spatial knowledge, including direction and distance, not only enhance the spatial perception and reasoning abilities of MLLMs but also exhibit strong generalization capabilities. We hope that the idea of knowledge-based data synthesis can advance the development of spatial intelligence.

arxiv情報

著者 Yida Xue,Zhen Bi,Jinnan Yang,Jungang Lou,Huajun Chen,Ningyu Zhang
発行日 2025-05-28 17:50:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | Spatial Knowledge Graph-Guided Multimodal Synthesis はコメントを受け付けていません