CXReasonBench: A Benchmark for Evaluating Structured Diagnostic Reasoning in Chest X-rays

要約

大規模な視覚言語モデル(LVLMS)の最近の進捗により、レポート生成や視覚的な質問応答などの医療タスクで有望なアプリケーションが可能になりました。
ただし、既存のベンチマークは主に最終的な診断回答に焦点を当てており、モデルが臨床的に意味のある推論に従事するかどうかについての限られた洞察を提供します。
これに対処するために、ChexStructとCXReasonbenchを提示します。これは、公開されているMimic-CXR-JPGデータセットに基づいて構築された構造化されたパイプラインとベンチマークです。
ChexStructは、解剖学的領域のセグメント化、解剖学的ランドマークと診断測定の導出、診断指標の計算、臨床的閾値の適用など、胸部X線から直接一連の中間推論ステップを自動的に導き出します。
CXReasonBenchはこのパイプラインを活用して、モデルが臨床的に正当な推論ステップを実行できるかどうか、および構造化されたガイダンスからどの程度学習できるかを評価し、診断推論の微細な透明な評価を可能にします。
ベンチマークは、12の診断タスクと1,200件のケースにわたる18,988のQAペアで構成され、それぞれが最大4つの視覚入力とペアになり、解剖学的領域の選択と診断測定による視覚的接地を含むマルチパス、マルチステージ評価をサポートします。
最も強い評価されたLVLMSでさえ、構造化された推論と一般化と格闘しており、抽象的な知識を解剖学的に根拠のある視覚解釈とリンクすることに失敗することがよくあります。
このコードは、https://github.com/ttumyche/cxreasonbenchで入手できます

要約(オリジナル)

Recent progress in Large Vision-Language Models (LVLMs) has enabled promising applications in medical tasks, such as report generation and visual question answering. However, existing benchmarks focus mainly on the final diagnostic answer, offering limited insight into whether models engage in clinically meaningful reasoning. To address this, we present CheXStruct and CXReasonBench, a structured pipeline and benchmark built on the publicly available MIMIC-CXR-JPG dataset. CheXStruct automatically derives a sequence of intermediate reasoning steps directly from chest X-rays, such as segmenting anatomical regions, deriving anatomical landmarks and diagnostic measurements, computing diagnostic indices, and applying clinical thresholds. CXReasonBench leverages this pipeline to evaluate whether models can perform clinically valid reasoning steps and to what extent they can learn from structured guidance, enabling fine-grained and transparent assessment of diagnostic reasoning. The benchmark comprises 18,988 QA pairs across 12 diagnostic tasks and 1,200 cases, each paired with up to 4 visual inputs, and supports multi-path, multi-stage evaluation including visual grounding via anatomical region selection and diagnostic measurements. Even the strongest of 10 evaluated LVLMs struggle with structured reasoning and generalization, often failing to link abstract knowledge with anatomically grounded visual interpretation. The code is available at https://github.com/ttumyche/CXReasonBench

arxiv情報

著者 Hyungyung Lee,Geon Choi,Jung-Oh Lee,Hangyul Yoon,Hyuk Gi Hong,Edward Choi
発行日 2025-05-23 16:44:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | CXReasonBench: A Benchmark for Evaluating Structured Diagnostic Reasoning in Chest X-rays はコメントを受け付けていません

DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations

要約

対面での会話では、個人はスピーキングとリスニングの役割を切り替える必要があります。
既存の3Dトーキングヘッドジェネレーションモデルは、話すかリスニングに焦点を当て、インタラクティブな会話の自然なダイナミクスを無視し、不自然な相互作用と厄介な移行につながります。
この問題に対処するために、3Dトーキングヘッド生成のためのマルチラウンドのデュアルスピーカーインタラクション – 継続的な会話でスピーキングとリスニングの両方の行動を処理および生成する必要がある新しいタスクを提案します。
このタスクを解決するために、スピーカーとリスナーの動的な動作を統合して現実的で首尾一貫した対話の相互作用をシミュレートする新しい統一されたフレームワークであるDualtalkを紹介します。
このフレームワークは、話すときにリアルなトーキングヘッドを統合するだけでなく、聞くときに連続的で鮮明な非言語的フィードバックを生成し、役割間の相互作用を効果的にキャプチャします。
また、1,000文字以上の50時間のマルチラウンド会話を特徴とする新しいデータセットを作成します。参加者は、スピーキングとリスニングの役割を継続的に切り替えます。
広範な実験は、私たちの方法がデュアルスピーカーの会話における3Dトーキングヘッドの自然性と表現力を大幅に向上させることを示しています。
補足ビデオを見ることをお勧めします:https://ziqiaopeng.github.io/dualtalk。

要約(オリジナル)

In face-to-face conversations, individuals need to switch between speaking and listening roles seamlessly. Existing 3D talking head generation models focus solely on speaking or listening, neglecting the natural dynamics of interactive conversation, which leads to unnatural interactions and awkward transitions. To address this issue, we propose a new task — multi-round dual-speaker interaction for 3D talking head generation — which requires models to handle and generate both speaking and listening behaviors in continuous conversation. To solve this task, we introduce DualTalk, a novel unified framework that integrates the dynamic behaviors of speakers and listeners to simulate realistic and coherent dialogue interactions. This framework not only synthesizes lifelike talking heads when speaking but also generates continuous and vivid non-verbal feedback when listening, effectively capturing the interplay between the roles. We also create a new dataset featuring 50 hours of multi-round conversations with over 1,000 characters, where participants continuously switch between speaking and listening roles. Extensive experiments demonstrate that our method significantly enhances the naturalness and expressiveness of 3D talking heads in dual-speaker conversations. We recommend watching the supplementary video: https://ziqiaopeng.github.io/dualtalk.

arxiv情報

著者 Ziqiao Peng,Yanbo Fan,Haoyu Wu,Xuan Wang,Hongyan Liu,Jun He,Zhaoxin Fan
発行日 2025-05-23 16:49:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS | DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations はコメントを受け付けていません

Towards more transferable adversarial attack in black-box manner

要約

敵対的な攻撃は十分に標準のドメインになり、モデルの堅牢性の評価ベースラインとして頻繁に機能します。
これらの中で、移転可能性に基づいたブラックボックス攻撃は、実際のシナリオでの実際的な適用性により、大きな注目を集めています。
従来のブラックボックス方法は、一般に、サロゲートホワイトボックスモデルアーキテクチャへの依存度を調べるのではなく、移転性を高めるために最適化フレームワーク(Mi-FGSMの勢いを利用するなど)の改善に焦点を当てています。
最近の最先端のアプローチDIFFPGDは、適応攻撃のために拡散ベースの敵対的浄化モデルを採用することにより、移転可能性の向上を実証しています。
拡散ベースの敵対的浄化の帰納的バイアスは、騒音の添加を含む敵対的な攻撃プロセスと自然に整合し、代理ホワイトボックスモデルの選択への依存度を低下させます。
ただし、拡散モデルの除去プロセスは、チェーンルールの導出を通じてかなりの計算コストを負い、過剰なVRAM消費と延長ランタイムで現れます。
この進行により、拡散モデルの導入が必要かどうかを疑問視するようになります。
拡散ベースの敵対的浄化と同様の誘導バイアスを適切な損失関数と組み合わせて共有するモデルは、計算オーバーヘッドを劇的に減少させながら、同等または優れた移動性を実現できると仮定します。
この論文では、仮説を検証するためのユニークな代理モデルと組み合わせた新しい損失関数を提案します。
当社のアプローチは、分類器誘導拡散モデルからの時間依存分類器のスコアを活用し、自然データ分布の知識を敵対的最適化プロセスに効果的に組み込みます。
実験結果は、拡散ベースの防御に対する堅牢性を維持しながら、多様なモデルアーキテクチャ間の譲渡可能性が大幅に改善されたことを示しています。

要約(オリジナル)

Adversarial attacks have become a well-explored domain, frequently serving as evaluation baselines for model robustness. Among these, black-box attacks based on transferability have received significant attention due to their practical applicability in real-world scenarios. Traditional black-box methods have generally focused on improving the optimization framework (e.g., utilizing momentum in MI-FGSM) to enhance transferability, rather than examining the dependency on surrogate white-box model architectures. Recent state-of-the-art approach DiffPGD has demonstrated enhanced transferability by employing diffusion-based adversarial purification models for adaptive attacks. The inductive bias of diffusion-based adversarial purification aligns naturally with the adversarial attack process, where both involving noise addition, reducing dependency on surrogate white-box model selection. However, the denoising process of diffusion models incurs substantial computational costs through chain rule derivation, manifested in excessive VRAM consumption and extended runtime. This progression prompts us to question whether introducing diffusion models is necessary. We hypothesize that a model sharing similar inductive bias to diffusion-based adversarial purification, combined with an appropriate loss function, could achieve comparable or superior transferability while dramatically reducing computational overhead. In this paper, we propose a novel loss function coupled with a unique surrogate model to validate our hypothesis. Our approach leverages the score of the time-dependent classifier from classifier-guided diffusion models, effectively incorporating natural data distribution knowledge into the adversarial optimization process. Experimental results demonstrate significantly improved transferability across diverse model architectures while maintaining robustness against diffusion-based defenses.

arxiv情報

著者 Chun Tong Lei,Zhongliang Guo,Hon Chung Lee,Minh Quoc Duong,Chun Pong Lau
発行日 2025-05-23 16:49:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Towards more transferable adversarial attack in black-box manner はコメントを受け付けていません

F-ANcGAN: An Attention-Enhanced Cycle Consistent Generative Adversarial Architecture for Synthetic Image Generation of Nanoparticles

要約

ナノ材料研究は、エネルギー、医学、材料科学にとって重要な分野になりつつあり、ナノ粒子トポロジの正確な分析は、その特性を決定するために不可欠です。
残念ながら、高品質の注釈付きデータセットの欠如は、ナノスケールイメージングの強力なセグメンテーションモデルの作成を劇的に妨げます。
この問題を軽減するために、限られた数のデータサンプルを使用してトレーニングし、セグメンテーションマップから直接現実的なスキャン電子顕微鏡(SEM)画像を生成できる注意強化サイクルの一貫した生成敵対システムであるF-Ancganを導入します。
私たちのモデルは、スタイルU-Netジェネレーターと自己触たちを備えたU-Netセグメンテーションネットワークを使用して構造的関係をキャプチャし、増強方法を適用してデータセットの多様性を増加させます。
このアーキテクチャは、TIO $ _2 $ DATASET生成で17.65の生のFIDスコアに達し、効率的な後処理技術を使用することにより、FIDスコアをさらに10.39にさらに削減しました。
スケーラブルな高忠実度の合成データセット生成を促進することにより、私たちのアプローチは、下流のセグメンテーションタスクトレーニングの有効性を改善し、ナノ粒子分析における深刻なデータ不足の問題を克服し、そのアプリケーションをリソース制限フィールドに拡張することができます。

要約(オリジナル)

Nanomaterial research is becoming a vital area for energy, medicine, and materials science, and accurate analysis of the nanoparticle topology is essential to determine their properties. Unfortunately, the lack of high-quality annotated datasets drastically hinders the creation of strong segmentation models for nanoscale imaging. To alleviate this problem, we introduce F-ANcGAN, an attention-enhanced cycle consistent generative adversarial system that can be trained using a limited number of data samples and generates realistic scanning electron microscopy (SEM) images directly from segmentation maps. Our model uses a Style U-Net generator and a U-Net segmentation network equipped with self-attention to capture structural relationships and applies augmentation methods to increase the variety of the dataset. The architecture reached a raw FID score of 17.65 for TiO$_2$ dataset generation, with a further reduction in FID score to nearly 10.39 by using efficient post-processing techniques. By facilitating scalable high-fidelity synthetic dataset generation, our approach can improve the effectiveness of downstream segmentation task training, overcoming severe data shortage issues in nanoparticle analysis, thus extending its applications to resource-limited fields.

arxiv情報

著者 Varun Ajith,Anindya Pal,Saumik Bhattacharya,Sayantari Ghosh
発行日 2025-05-23 17:02:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.CV, cs.LG, eess.IV | F-ANcGAN: An Attention-Enhanced Cycle Consistent Generative Adversarial Architecture for Synthetic Image Generation of Nanoparticles はコメントを受け付けていません

ViFOR: A Fourier-Enhanced Vision Transformer for Multi-Image Super-Resolution in Earth System

要約

スーパー解像度(SR)技術は、地球システムモデル(ESM)データの空間解像度を改善するために不可欠であり、複雑な環境プロセスをよりよく理解するのに役立ちます。
このペーパーでは、視覚変圧器(VIT)とフーリエベースの暗黙的な神経表現ネットワーク(INR)を組み合わせて、低解像度(LR)入力から高解像度(HR)画像を生成する新しいアルゴリズムViforを紹介します。
Viforは、Vision Transformer Architecture内のフーリエベースの活性化関数の新しい統合を導入し、正確なSR再構成に重要なグローバルコンテキストと高周波の詳細を効果的にキャプチャできるようにします。
結果は、VIFORが、VIT、正弦波表現ネットワーク(SIREN)、SR Generative Anversarial Networks(SRGANS)などの最先端の方法を上回ることを示しています。
Viforは、ソース温度、短波、および長波フラックスの完全な画像に対して、VITよりも最大4.18 dB、1.56 dB、および1.73 dBのPSNRを改善します。

要約(オリジナル)

Super-resolution (SR) techniques are essential for improving Earth System Model (ESM) data’s spatial resolution, which helps better understand complex environmental processes. This paper presents a new algorithm, ViFOR, which combines Vision Transformers (ViT) and Fourier-based Implicit Neural Representation Networks (INRs) to generate High-Resolution (HR) images from Low-Resolution (LR) inputs. ViFOR introduces a novel integration of Fourier-based activation functions within the Vision Transformer architecture, enabling it to effectively capture global context and high-frequency details critical for accurate SR reconstruction. The results show that ViFOR outperforms state-of-the-art methods such as ViT, Sinusoidal Representation Networks (SIREN), and SR Generative Adversarial Networks (SRGANs) based on metrics like Peak Signal-to-Noise Ratio (PSNR) and Mean Squared Error (MSE) both for global as well as the local imagery. ViFOR improves PSNR of up to 4.18 dB, 1.56 dB, and 1.73 dB over ViT for full images in the Source Temperature, Shortwave, and Longwave Flux.

arxiv情報

著者 Ehsan Zeraatkar,Salah A Faroughi,Jelena Tešić
発行日 2025-05-23 17:03:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ViFOR: A Fourier-Enhanced Vision Transformer for Multi-Image Super-Resolution in Earth System はコメントを受け付けていません

Accelerating Learned Image Compression Through Modeling Neural Training Dynamics

要約

学習した画像圧縮(LIC)メソッドがますます計算的に要求が厳しくなるにつれて、トレーニング効率を向上させることが重要です。
この論文は、ニューラルトレーニングのダイナミクスをモデル化することにより、LICメソッドのトレーニングを加速するのに一歩前進します。
最初に、同じモデル内の参照パラメーターのアフィン変換としてパラメーターが表現されるいくつかの別々のモードにクラスターすることを示す感度に対応する真のダミー埋め込みトレーニングメカニズム(STDET)を提案します。
トレーニングとパラメーターの感受性を通して安定したモード内相関をさらに利用することにより、非参照パラメーターを徐々に埋め込み、訓練可能なパラメーターの数を減らしました。
さらに、サンプリング、動きの平均(SMA)技術を組み込み、確率勾配降下(SGD)トレーニングからサンプリングされた重量を補間して移動平均重量を取得し、スムーズな時間行動を確保し、トレーニング状態の変動を最小化します。
全体として、私たちの方法は、モデルのパフォーマンスを犠牲にすることなく、トレーニングスペースの寸法とトレーニング可能なパラメーターの数を大幅に削減し、モデルの収束を加速します。
また、騒々しい二次モデルに関する理論分析を提供し、提案された方法が標準SGDよりも低いトレーニングの差異を達成することを示しています。
私たちのアプローチは、LICの効率的なトレーニング方法をさらに開発するための貴重な洞察を提供します。

要約(オリジナル)

As learned image compression (LIC) methods become increasingly computationally demanding, enhancing their training efficiency is crucial. This paper takes a step forward in accelerating the training of LIC methods by modeling the neural training dynamics. We first propose a Sensitivity-aware True and Dummy Embedding Training mechanism (STDET) that clusters LIC model parameters into few separate modes where parameters are expressed as affine transformations of reference parameters within the same mode. By further utilizing the stable intra-mode correlations throughout training and parameter sensitivities, we gradually embed non-reference parameters, reducing the number of trainable parameters. Additionally, we incorporate a Sampling-then-Moving Average (SMA) technique, interpolating sampled weights from stochastic gradient descent (SGD) training to obtain the moving average weights, ensuring smooth temporal behavior and minimizing training state variances. Overall, our method significantly reduces training space dimensions and the number of trainable parameters without sacrificing model performance, thus accelerating model convergence. We also provide a theoretical analysis on the Noisy quadratic model, showing that the proposed method achieves a lower training variance than standard SGD. Our approach offers valuable insights for further developing efficient training methods for LICs.

arxiv情報

著者 Yichi Zhang,Zhihao Duan,Yuning Huang,Fengqing Zhu
発行日 2025-05-23 17:03:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Accelerating Learned Image Compression Through Modeling Neural Training Dynamics はコメントを受け付けていません

A Clinician-Friendly Platform for Ophthalmic Image Analysis Without Technical Barriers

要約

人工知能(AI)は、医療イメージング診断において顕著な可能性を示していますが、ほとんどの現在のモデルは、異なる臨床設定に適用されると再訓練を必要とし、スケーラビリティを制限します。
再訓練、微調整、または技術的専門知識のニーズなしで動作するFundus Disease Diasionsisを可能にする臨床医に優しいAIプラットフォームであるGlobereadyを紹介します。
Globereadyは、イメージングのモダリティ全体で高い精度を示しています。11の眼底疾患で93.9-98.5%Color Fundus写真(CPF)を使用して、視神経節断層撮影(OCT)スキャンを使用した15の眼底疾患で87.2-92.7%。
トレーニングフリーのローカルフィーチャの増強を活用することにより、Globereadyプラットフォームは、センターと集団間でドメインのシフトを効果的に軽減し、中国で平均5つのセンターで88.9-97.4%、ベトナムで86.3-96.9%、シンガポアで73.4-91.0%、英国で90.2-98.9%を達成します。
Bulit-inの信頼性定量化可能な診断メカニズムを組み込むと、プラットフォームの精度がCFPSで94.9-99.4%、OCTで88.2-96.2%にさらに強化され、CFPSおよびCFPSを使用したCFPSおよび90.6%の精度を使用して49のFORDUS障害を介して86.3%の精度を備えた分散症例を識別します。
国の臨床医は、Globereadyを使いやすさと臨床的関連性について高く評価しています(平均スコア4.6/5)。
これらの発見は、Globereadyの堅牢性、一般化可能性、および技術的な障壁なしでグローバルな眼科ケアをサポートする可能性を示しています。

要約(オリジナル)

Artificial intelligence (AI) shows remarkable potential in medical imaging diagnostics, yet most current models require retraining when applied across different clinical settings, limiting their scalability. We introduce GlobeReady, a clinician-friendly AI platform that enables fundus disease diagnosis that operates without retraining, fine-tuning, or the needs for technical expertise. GlobeReady demonstrates high accuracy across imaging modalities: 93.9-98.5% for 11 fundus diseases using color fundus photographs (CPFs) and 87.2-92.7% for 15 fundus diseases using optic coherence tomography (OCT) scans. By leveraging training-free local feature augmentation, GlobeReady platform effectively mitigates domain shifts across centers and populations, achieving accuracies of 88.9-97.4% across five centers on average in China, 86.3-96.9% in Vietnam, and 73.4-91.0% in Singapore, and 90.2-98.9% in the UK. Incorporating a bulit-in confidence-quantifiable diagnostic mechanism further enhances the platform’s accuracy to 94.9-99.4% with CFPs and 88.2-96.2% with OCT, while enabling identification of out-of-distribution cases with 86.3% accuracy across 49 common and rare fundus diseases using CFPs, and 90.6% accuracy across 13 diseases using OCT. Clinicians from countries rated GlobeReady highly for usability and clinical relevance (average score 4.6/5). These findings demonstrate GlobeReady’s robustness, generalizability and potential to support global ophthalmic care without technical barriers.

arxiv情報

著者 Meng Wang,Tian Lin,Qingshan Hou,Aidi Lin,Jingcheng Wang,Qingsheng Peng,Truong X. Nguyen,Danqi Fang,Ke Zou,Ting Xu,Cancan Xue,Ten Cheer Quek,Qinkai Yu,Minxin Liu,Hui Zhou,Zixuan Xiao,Guiqin He,Huiyu Liang,Tingkun Shi,Man Chen,Linna Liu,Yuanyuan Peng,Lianyu Wang,Qiuming Hu,Junhong Chen,Zhenhua Zhang,Cheng Chen,Yitian Zhao,Dianbo Liu,Jianhua Wu,Xinjian Chen,Changqing Zhang,Triet Thanh Nguyen,Yanda Meng,Yalin Zheng,Yih Chung Tham,Carol Y. Cheung,Huazhu Fu,Haoyu Chen,Ching-Yu Cheng
発行日 2025-05-23 17:03:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | A Clinician-Friendly Platform for Ophthalmic Image Analysis Without Technical Barriers はコメントを受け付けていません

Adapting SAM 2 for Visual Object Tracking: 1st Place Solution for MMVPR Challenge Multi-Modal Tracking

要約

モデル2(SAM2)を視覚オブジェクト追跡(投票)タスクにセグメントに適応させるための効果的なアプローチを提示します。
私たちの方法は、SAM2の強力な事前訓練を受けた機能を活用し、投票アプリケーションでのパフォーマンスを強化するためのいくつかの重要な手法を組み込みます。
SAM2と提案された最適化を組み合わせることで、2024 ICPRマルチモーダルオブジェクト追跡チャレンジで89.4の1位AUCスコアを達成し、アプローチの有効性を実証しました。
このペーパーでは、私たちの方法論、SAM2に行われた特定の強化、およびデータセットのマルチモダリティの側面とともに、投票ソリューションのコンテキストでの結果の包括的な分析について詳しく説明しています。

要約(オリジナル)

We present an effective approach for adapting the Segment Anything Model 2 (SAM2) to the Visual Object Tracking (VOT) task. Our method leverages the powerful pre-trained capabilities of SAM2 and incorporates several key techniques to enhance its performance in VOT applications. By combining SAM2 with our proposed optimizations, we achieved a first place AUC score of 89.4 on the 2024 ICPR Multi-modal Object Tracking challenge, demonstrating the effectiveness of our approach. This paper details our methodology, the specific enhancements made to SAM2, and a comprehensive analysis of our results in the context of VOT solutions along with the multi-modality aspect of the dataset.

arxiv情報

著者 Cheng-Yen Yang,Hsiang-Wei Huang,Pyong-Kun Kim,Chien-Kai Kuo,Jui-Wei Chang,Kwang-Ju Kim,Chung-I Huang,Jenq-Neng Hwang
発行日 2025-05-23 17:04:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Adapting SAM 2 for Visual Object Tracking: 1st Place Solution for MMVPR Challenge Multi-Modal Tracking はコメントを受け付けていません

MMXU: A Multi-Modal and Multi-X-ray Understanding Dataset for Disease Progression

要約

大規模な視覚言語モデル(LVLMS)は、特に視覚的な質問応答(MEDVQA)と医療画像からの診断において、医療用途に大きな期待を示しています。
ただし、既存のデータセットとモデルは、歴史的記録の統合や時間の経過に伴う疾患の進行の分析など、医療診断の重要な側面を考慮していないことがよくあります。
このホワイトペーパーでは、MMXU(マルチモーダルおよびマルチレイ理解)を紹介します。これは、2つの患者訪問の間の特定の領域の変化の特定に焦点を当てたMEDVQAの新しいデータセットです。
主に単一イメージの質問に対処する以前のデータセットとは異なり、MMXUは、現在および履歴の患者データの両方を組み込んだマルチイメージの質問を有効にします。
MMXU- \ textIT {test}の疾患の進行を特定する際の現在のLVLMの制限を示します。
これに対処するために、グローバルおよび地域の歴史的記録の両方を組み込んだMedRecord-Augmented Generation(MAG)アプローチを提案します。
私たちの実験は、履歴記録を統合することで診断の精度が少なくとも20 \%増加することを示しており、現在のLVLMSと人間の専門家のパフォーマンスのギャップを埋めることを示しています。
さらに、MMXU- \ TextIT {dev}でMAGでモデルを微調整します。これは、顕著な改善を示しています。
この作業が、医療画像を解釈する際の歴史的背景の重要性を強調することにより、医療診断におけるLVLMSの使用を進める道を照らすことができることを願っています。
データセットはgithubでリリースされています:https://github.com/linjiemu/mmxu。

要約(オリジナル)

Large vision-language models (LVLMs) have shown great promise in medical applications, particularly in visual question answering (MedVQA) and diagnosis from medical images. However, existing datasets and models often fail to consider critical aspects of medical diagnostics, such as the integration of historical records and the analysis of disease progression over time. In this paper, we introduce MMXU (Multimodal and MultiX-ray Understanding), a novel dataset for MedVQA that focuses on identifying changes in specific regions between two patient visits. Unlike previous datasets that primarily address single-image questions, MMXU enables multi-image questions, incorporating both current and historical patient data. We demonstrate the limitations of current LVLMs in identifying disease progression on MMXU-\textit{test}, even those that perform well on traditional benchmarks. To address this, we propose a MedRecord-Augmented Generation (MAG) approach, incorporating both global and regional historical records. Our experiments show that integrating historical records significantly enhances diagnostic accuracy by at least 20\%, bridging the gap between current LVLMs and human expert performance. Additionally, we fine-tune models with MAG on MMXU-\textit{dev}, which demonstrates notable improvements. We hope this work could illuminate the avenue of advancing the use of LVLMs in medical diagnostics by emphasizing the importance of historical context in interpreting medical images. Our dataset is released at github: https://github.com/linjiemu/MMXU.

arxiv情報

著者 Linjie Mu,Zhongzhen Huang,Shengqian Qin,Yakun Zhu,Shaoting Zhang,Xiaofan Zhang
発行日 2025-05-23 17:05:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | MMXU: A Multi-Modal and Multi-X-ray Understanding Dataset for Disease Progression はコメントを受け付けていません

Instructify: Demystifying Metadata to Visual Instruction Tuning Data Conversion

要約

視覚指導の調整(訪問)データは、一般的に人間のターンでインターリーブされた画像との人間アシスタント会話として利用可能であり、現在、視覚入力を理解し、強力なLMMに変換するために強力なLLMを調整するための最も広範な車両です。
多くの訪問データセットは利用可能ですが、ほとんどは異なるグループによって独立して開発されたアドホックテクニックを使用して構築されています。
それらはしばしば不十分に文書化されており、再現性のあるコードがなく、GPT-4、Gemini、Claudeなどの有料のクローズドソースモデルAPIに依存して、画像メタデータ(ラベル)を訪問の指示に変換します。
これにより、コストが高くなり、新しいデータセットの拡張、品質の向上、または訪問データの生成が困難になります。
この作業では、これらの課題に対処し、オープンLLMを使用して手順にアクセスするために利用可能なメタデータを変換するために、オープンで統一されたレシピとアプローチ〜\ textBf {\ method}を提案します。
マルチステージ\メソッドは、メタデータグループ、品質管理、データ、および迅速な組織、および会話サンプリングのための効率的なフレームワークを備えています。
私たちのアプローチは、同じ画像データとメタデータソースに適用されると、利用可能なデータセットのデータ品質を再現または強化し、GPT-4生成された訪問命令を平均して〜3 \%、Gemma 2 27bやllama 3.1 70bなどのオープンモデルを使用して個々のベンチマークで最大12 \%を改善できることを示します。
さらに、当社のアプローチにより、幅広いベンチマークで結果のLMMパフォーマンスを強化することにより、効果的なパフォーマンススケーリング(量と品質の両方)が可能になります。
また、会話形式、ベースモデルの選択、再サンプリング戦略など、さまざまな要因の影響を分析します。
ニッチドメインの将来のメタデータから訪問への将来のデータセットと施設の同等または高品質の訪問の複製をサポートするコードは、https://github.com/jacob-hansen/instructifeにリリースされます。

要約(オリジナル)

Visual Instruction Tuning (VisIT) data, commonly available as human-assistant conversations with images interleaved in the human turns, are currently the most widespread vehicle for aligning strong LLMs to understand visual inputs, converting them to strong LMMs. While many VisIT datasets are available, most are constructed using ad-hoc techniques developed independently by different groups. They are often poorly documented, lack reproducible code, and rely on paid, closed-source model APIs such as GPT-4, Gemini, or Claude to convert image metadata (labels) into VisIT instructions. This leads to high costs and makes it challenging to scale, enhance quality, or generate VisIT data for new datasets. In this work, we address these challenges and propose an open and unified recipe and approach,~\textbf{\method}, for converting available metadata to VisIT instructions using open LLMs. Our multi-stage \method features an efficient framework for metadata grouping, quality control, data and prompt organization, and conversation sampling. We show that our approach can reproduce or enhance the data quality of available VisIT datasets when applied to the same image data and metadata sources, improving GPT-4 generated VisIT instructions by ~3\% on average and up to 12\% on individual benchmarks using open models, such as Gemma 2 27B and LLaMa 3.1 70B. Additionally, our approach enables effective performance scaling – both in quantity and quality – by enhancing the resulting LMM performance across a wide range of benchmarks. We also analyze the impact of various factors, including conversation format, base model selection, and resampling strategies. Our code, which supports the reproduction of equal or higher-quality VisIT datasets and facilities future metadata-to-VisIT data conversion for niche domains, is released at https://github.com/jacob-hansen/Instructify.

arxiv情報

著者 Jacob Hansen,Wei Lin,Junmo Kang,Muhammad Jehanzeb Mirza,Hongyin Luo,Rogerio Feris,Alan Ritter,James Glass,Leonid Karlinsky
発行日 2025-05-23 17:14:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Instructify: Demystifying Metadata to Visual Instruction Tuning Data Conversion はコメントを受け付けていません