Multi-contrast laser endoscopy for in vivo gastrointestinal imaging

要約

白色光内視鏡検査は、胃腸管の疾患を検出するための臨床ゴールドスタンダードです。
ほとんどのアプリケーションでは、組織の色、テクスチャー、形状の視覚的異常を特定することが含まれます。
残念ながら、これらの機能のコントラストはしばしば微妙であり、多くの臨床的に関連するケースが検出されません。
この課題を克服するために、マルチコントラストレーザー内視鏡検査(MLE)を導入します。これは、急速に調整可能なスペクトル、コヒーレント、および方向照明を備えたワイドフィールド臨床イメージングのプラットフォームです。
MLEの3つの能力を示します。組織発色団のコントラストの強化と多宇宙拡散反射率、レーザースペックルコントラストイメージングを使用した血流の定量化、および測光ステレオを使用した粘膜トポグラフィーの特性評価。
ベンチトップモデルでMLEを検証し、臨床大腸内視鏡検査中にin vivoでMLEを実証します。
31のポリープからのMLE画像は、コントラストのおおよその3倍の改善と、白色光および狭いバンドイメージングと比較して色差の5倍の改善を示しています。
臨床環境にシームレスに統合されている間、複数の補完的なタイプの組織コントラストを明らかにする能力により、MLEは胃腸イメージングを改善するための調査ツールとして有望であることを示しています。

要約(オリジナル)

White light endoscopy is the clinical gold standard for detecting diseases in the gastrointestinal tract. Most applications involve identifying visual abnormalities in tissue color, texture, and shape. Unfortunately, the contrast of these features is often subtle, causing many clinically relevant cases to go undetected. To overcome this challenge, we introduce Multi-contrast Laser Endoscopy (MLE): a platform for widefield clinical imaging with rapidly tunable spectral, coherent, and directional illumination. We demonstrate three capabilities of MLE: enhancing tissue chromophore contrast with multispectral diffuse reflectance, quantifying blood flow using laser speckle contrast imaging, and characterizing mucosal topography using photometric stereo. We validate MLE with benchtop models, then demonstrate MLE in vivo during clinical colonoscopies. MLE images from 31 polyps demonstrate an approximate three-fold improvement in contrast and a five-fold improvement in color difference compared to white light and narrow band imaging. With the ability to reveal multiple complementary types of tissue contrast while seamlessly integrating into the clinical environment, MLE shows promise as an investigative tool to improve gastrointestinal imaging.

arxiv情報

著者 Taylor L. Bobrow,Mayank Golhar,Suchapa Arayakarnkul,Anthony A. Song,Saowanee Ngamruengphong,Nicholas J. Durr
発行日 2025-05-15 16:47:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV, physics.optics | Multi-contrast laser endoscopy for in vivo gastrointestinal imaging はコメントを受け付けていません

CheXGenBench: A Unified Benchmark For Fidelity, Privacy and Utility of Synthetic Chest Radiographs

要約

Chexgenbenchを紹介します。これは、最先端のテキストから画像への生成モデル全体で忠実度、プライバシーリスク、臨床的有用性を同時に評価する合成胸部レントゲン写真生成のための厳密で多面的な評価フレームワークです。
現実世界の画像の生成AIの急速な進歩にもかかわらず、医療ドメインの評価は、方法論的な矛盾、時代遅れの建築的比較、および合成サンプルの実際の臨床価値にめったに対処しないことを切断した評価基準によって妨げられてきました。
Chexgenbenchは、標準化されたデータパーティション化と、生成品質、潜在的なプライバシーの脆弱性、11の主要なテキストから画像のアーキテクチャにわたる下流の臨床的適用性を体系的に分析する20を超える定量的メトリックを含む統一された評価プロトコルを通じて、これらの制限を克服します。
我々の結果は、既存の評価プロトコル、特に生成的忠実度の評価における重要な非効率性を明らかにし、一貫性と情報のない比較につながります。
私たちのフレームワークは、医療AIコミュニティの標準化されたベンチマークを確立し、既存および将来の生成モデルの両方のシームレスな統合を促進しながら、客観的かつ再現可能な比較を可能にします。
さらに、この重要なドメインでのさらなる研究をサポートするために、ベンチマークで最高パフォーマンスモデル(SANA 0.6B)によって生成された75Kレントゲン写真を含む、高品質の合成データセット、SynthChex-75Kをリリースします。
Chexgenbenchを通じて、新しい最先端を確立し、https://raman1121.github.io/chexgenbench/でフレームワーク、モデル、およびSynthchex-75kデータセットをリリースします。

要約(オリジナル)

We introduce CheXGenBench, a rigorous and multifaceted evaluation framework for synthetic chest radiograph generation that simultaneously assesses fidelity, privacy risks, and clinical utility across state-of-the-art text-to-image generative models. Despite rapid advancements in generative AI for real-world imagery, medical domain evaluations have been hindered by methodological inconsistencies, outdated architectural comparisons, and disconnected assessment criteria that rarely address the practical clinical value of synthetic samples. CheXGenBench overcomes these limitations through standardised data partitioning and a unified evaluation protocol comprising over 20 quantitative metrics that systematically analyse generation quality, potential privacy vulnerabilities, and downstream clinical applicability across 11 leading text-to-image architectures. Our results reveal critical inefficiencies in the existing evaluation protocols, particularly in assessing generative fidelity, leading to inconsistent and uninformative comparisons. Our framework establishes a standardised benchmark for the medical AI community, enabling objective and reproducible comparisons while facilitating seamless integration of both existing and future generative models. Additionally, we release a high-quality, synthetic dataset, SynthCheX-75K, comprising 75K radiographs generated by the top-performing model (Sana 0.6B) in our benchmark to support further research in this critical domain. Through CheXGenBench, we establish a new state-of-the-art and release our framework, models, and SynthCheX-75K dataset at https://raman1121.github.io/CheXGenBench/

arxiv情報

著者 Raman Dutt,Pedro Sanchez,Yongchen Yao,Steven McDonagh,Sotirios A. Tsaftaris,Timothy Hospedales
発行日 2025-05-15 16:59:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CheXGenBench: A Unified Benchmark For Fidelity, Privacy and Utility of Synthetic Chest Radiographs はコメントを受け付けていません

MorphGuard: Morph Specific Margin Loss for Enhancing Robustness to Face Morphing Attacks

要約

顔認識は、深い学習技術の進歩とともに大幅に進化し、安全な認証を必要とするさまざまなアプリケーションでの広範な採用を可能にします。
しかし、この進捗は、顔のモーフィングを含むプレゼンテーション攻撃への曝露を増加させました。
したがって、最新の顔認識システムは、そのような攻撃に対して堅牢でなければなりません。
この作業では、顔認識のために深いネットワークをトレーニングするための新しいアプローチを提案し、モーフィング攻撃に直面する堅牢性が向上します。
私たちの方法は、フェイスモーフのラベル付けのあいまいさを効果的に処理するデュアルブランチ分類戦略を導入することにより、分類タスクを変更します。
この適応により、モデルはモーフ画像をトレーニングプロセスに組み込むことができ、それらを真正なサンプルと区別する能力を向上させることができます。
私たちの戦略は公共のベンチマークで検証されており、顔のモーフィング攻撃に対する堅牢性を高める上でその有効性を示しています。
さらに、私たちのアプローチは普遍的に適用可能であり、分類ベースの認識方法を改善するために、既存のフェイス認識トレーニングパイプラインに統合できます。

要約(オリジナル)

Face recognition has evolved significantly with the advancement of deep learning techniques, enabling its widespread adoption in various applications requiring secure authentication. However, this progress has also increased its exposure to presentation attacks, including face morphing, which poses a serious security threat by allowing one identity to impersonate another. Therefore, modern face recognition systems must be robust against such attacks. In this work, we propose a novel approach for training deep networks for face recognition with enhanced robustness to face morphing attacks. Our method modifies the classification task by introducing a dual-branch classification strategy that effectively handles the ambiguity in the labeling of face morphs. This adaptation allows the model to incorporate morph images into the training process, improving its ability to distinguish them from bona fide samples. Our strategy has been validated on public benchmarks, demonstrating its effectiveness in enhancing robustness against face morphing attacks. Furthermore, our approach is universally applicable and can be integrated into existing face recognition training pipelines to improve classification-based recognition methods.

arxiv情報

著者 Iurii Medvedev,Nuno Goncalves
発行日 2025-05-15 17:00:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MorphGuard: Morph Specific Margin Loss for Enhancing Robustness to Face Morphing Attacks はコメントを受け付けていません

An unsupervised method for MRI recovery: Deep image prior with structured sparsity

要約

目的:完全にサンプリングされたKスペースデータを必要としない監視されていないMRI再構築方法を提案および検証する。
材料と方法:提案された方法、構造化されたスパース性(円盤投げ)を伴う深い画像は、グループスパースをフレーム固有のコードベクトルに導入し、時間的変動をキャプチャするための低次元マニホールドの発見を可能にすることにより、深い画像を拡張します(DIP)。
\ディスカスは、4つの研究を使用して検証されました。(i)動的なShepp-Logan Phantomのシミュレーションは、そのマニホールド発見機能を実証する、(ii)圧縮されたセンシングとの比較と、正常化された平均誤差(nmse)の測定に関する6つの異なるデジタル心臓ファントム(NMSE)と構造的な同様の測定値からの6つの異なるデジタル心臓ファントムからのシミュレートされたシングルショット後期ガドリニウム強化(LGE)画像シリーズを使用したDIPベースの方法を使用して比較
8人の患者からの遡及的にアンダーサンプリングされたシングルショットLGEデータ、および(IV)2人の専門家読者からのブラインドスコアリングを介して評価された8人の患者からの前向きにサンプリングされたシングルショットLGEデータに関する(IV)評価。
結果:競合する方法を上回り、NMSEおよびSSIM(研究I- III)および専門家リーダーのスコアリング(研究IV)の観点から優れた再建の質を示しました。
ディスカッション:監視されていない画像再構築方法が提示され、シミュレーションおよび測定されたデータで検証されています。
これらの開発は、完全にサンプリングされたデータを取得することが困難なアプリケーションに利益をもたらす可能性があります。

要約(オリジナル)

Objective: To propose and validate an unsupervised MRI reconstruction method that does not require fully sampled k-space data. Materials and Methods: The proposed method, deep image prior with structured sparsity (DISCUS), extends the deep image prior (DIP) by introducing group sparsity to frame-specific code vectors, enabling the discovery of a low-dimensional manifold for capturing temporal variations. \discus was validated using four studies: (I) simulation of a dynamic Shepp-Logan phantom to demonstrate its manifold discovery capabilities, (II) comparison with compressed sensing and DIP-based methods using simulated single-shot late gadolinium enhancement (LGE) image series from six distinct digital cardiac phantoms in terms of normalized mean square error (NMSE) and structural similarity index measure (SSIM), (III) evaluation on retrospectively undersampled single-shot LGE data from eight patients, and (IV) evaluation on prospectively undersampled single-shot LGE data from eight patients, assessed via blind scoring from two expert readers. Results: DISCUS outperformed competing methods, demonstrating superior reconstruction quality in terms of NMSE and SSIM (Studies I–III) and expert reader scoring (Study IV). Discussion: An unsupervised image reconstruction method is presented and validated on simulated and measured data. These developments can benefit applications where acquiring fully sampled data is challenging.

arxiv情報

著者 Muhammad Ahmad Sultan,Chong Chen,Yingmin Liu,Katarzyna Gil,Karolina Zareba,Rizwan Ahmad
発行日 2025-05-15 17:15:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV, eess.SP | An unsupervised method for MRI recovery: Deep image prior with structured sparsity はコメントを受け付けていません

Multi-Token Prediction Needs Registers

要約

マルチトークンの予測は、言語モデルの事前トレーニングを改善するための有望な目的として浮上していますが、その利点は微調整などの他の設定に一貫して一般化されていません。
このホワイトペーパーでは、Mutorを提案します。これは、学習可能な登録トークンを入力シーケンスにインターリーズするマルチトークン予測へのシンプルで効果的なアプローチを提案します。
既存の方法と比較して、Mutorはいくつかの重要な利点を提供します。それは、無視できる数の追加パラメーターのみを導入し、アーキテクチャの変更を必要としません – 既製の前ored言語モデルとの互換性を抑制することは、次の刻まれた前削除の目的と整合したままであり、特に監督された微調整に適しています。
さらに、自然にスケーラブルな予測視野をサポートします。
言語ドメインとビジョンドメインの両方での挑戦的な生成タスクについて、監視された微調整、パラメーター効率の高い微調整(PEFT)、および事前化を含む、さまざまなユースケースにわたるMOTORの有効性と汎用性を実証します。
私たちのコードは、https://github.com/nasosger/mutorで入手できます。

要約(オリジナル)

Multi-token prediction has emerged as a promising objective for improving language model pretraining, but its benefits have not consistently generalized to other settings such as fine-tuning. In this paper, we propose MuToR, a simple and effective approach to multi-token prediction that interleaves learnable register tokens into the input sequence, each tasked with predicting future targets. Compared to existing methods, MuToR offers several key advantages: it introduces only a negligible number of additional parameters, requires no architectural changes–ensuring compatibility with off-the-shelf pretrained language models–and remains aligned with the next-token pretraining objective, making it especially well-suited for supervised fine-tuning. Moreover, it naturally supports scalable prediction horizons. We demonstrate the effectiveness and versatility of MuToR across a range of use cases, including supervised fine-tuning, parameter-efficient fine-tuning (PEFT), and pretraining, on challenging generative tasks in both language and vision domains. Our code will be available at: https://github.com/nasosger/MuToR.

arxiv情報

著者 Anastasios Gerontopoulos,Spyros Gidaris,Nikos Komodakis
発行日 2025-05-15 17:25:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Multi-Token Prediction Needs Registers はコメントを受け付けていません

A Deep Learning-Driven Inhalation Injury Grading Assistant Using Bronchoscopy Images

要約

吸入損傷は、短縮損傷スコア(AIS)が主観的であり、機械的換気期間や患者の死亡率などの臨床パラメーターとの堅牢な相関がないなどの従来の等級付け方法により、臨床診断とグレーディングに課題をもたらします。
この研究では、気管支鏡検査画像を使用して吸入損傷を評価するための新しいディープラーニングベースの診断アシスタントツールを紹介し、主観的な変動性を克服し、重症度評価の一貫性を高めます。
私たちのアプローチは、医療画像データの不足に対処するために、グラフィック変換、対照的な対照翻訳(カット)、サイクルガンなどのデータ増強技術を活用しています。
これらの増強方法を通じて大幅に拡張されたデータセット全体で、2つのディープラーニングモデル、GoogleNetとVision Transformer(VIT)の分類パフォーマンスを評価します。
結果は、気管支鏡検査画像を介した吸入損傷を採点するための最も効果的な構成としてCutと組み合わせたGoogleNetを示し、97.8%の分類精度を達成します。
ヒストグラムと周波数分析の評価は、ヒストグラムの分布の変化と周波数スペクトルのテクスチャの詳細による増加カットによって引き起こされる変動を明らかにしています。
PCAの視覚化は、カットを強調して、機能空間のクラス分離性を大幅に向上させます。
さらに、Grad-CAM分析は、意思決定プロセスに関する洞察を提供します。
カットヒートマップの平均強度は119.6で、元のデータセットの98.8を大幅に超えています。
提案されたツールは、機械的換気期間を新しいグレーディング基準として活用し、包括的な診断サポートを提供します。

要約(オリジナル)

Inhalation injuries present a challenge in clinical diagnosis and grading due to Conventional grading methods such as the Abbreviated Injury Score (AIS) being subjective and lacking robust correlation with clinical parameters like mechanical ventilation duration and patient mortality. This study introduces a novel deep learning-based diagnosis assistant tool for grading inhalation injuries using bronchoscopy images to overcome subjective variability and enhance consistency in severity assessment. Our approach leverages data augmentation techniques, including graphic transformations, Contrastive Unpaired Translation (CUT), and CycleGAN, to address the scarcity of medical imaging data. We evaluate the classification performance of two deep learning models, GoogLeNet and Vision Transformer (ViT), across a dataset significantly expanded through these augmentation methods. The results demonstrate GoogLeNet combined with CUT as the most effective configuration for grading inhalation injuries through bronchoscopy images and achieves a classification accuracy of 97.8%. The histograms and frequency analysis evaluations reveal variations caused by the augmentation CUT with distribution changes in the histogram and texture details of the frequency spectrum. PCA visualizations underscore the CUT substantially enhances class separability in the feature space. Moreover, Grad-CAM analyses provide insight into the decision-making process; mean intensity for CUT heatmaps is 119.6, which significantly exceeds 98.8 of the original datasets. Our proposed tool leverages mechanical ventilation periods as a novel grading standard, providing comprehensive diagnostic support.

arxiv情報

著者 Yifan Li,Alan W Pang,Jo Woon Chong
発行日 2025-05-15 17:28:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | A Deep Learning-Driven Inhalation Injury Grading Assistant Using Bronchoscopy Images はコメントを受け付けていません

A portable diagnosis model for Keratoconus using a smartphone

要約

ケラトコノス(KC)は角膜障害であり、ぼやけて歪んだ視力をもたらします。
従来の診断ツールは、効果的ですが、しばしばかさばる、費用がかかり、専門的な操作が必要です。
この論文では、診断のためのポータブルで革新的な方法論を紹介します。
私たちの提案されたアプローチは、スマートフォンのスクリーン生成されたプラシドディスクが目に光を当てたときに、目の角膜に反映された画像を最初にキャプチャし、次にKC角膜を特定し、角膜上のKCの位置を特定するために2段階の診断を利用します。
最初の段階では、キャプチャされた画像から抽出されたプラシドディスクの高さと幅を推定して、KCがあるかどうかを識別します。
このKCの識別では、K-Meansクラスタリングが実装され、非KC(コントロール)およびKC影響を受けたグループから、抽出されたPlacidoディスクの高さと幅の値などの統計的特性を識別します。
第2段階では、距離マトリックスの作成を伴い、角膜上のKCの正確な局在を提供します。これは、効率的な治療計画に重要です。
ロジスティック回帰モデルと堅牢な統計分析とペアになったこれらの距離マトリックスの分析により、コントロールグループとKCグループの明確な区別が明らかになります。
角膜上の小さな領域を対応する距離マトリックスの対応するディスク間距離に基づいてコントロールまたはKCに分類するロジスティック回帰モデルは、96.94%の分類精度を報告しました。
この包括的なスマートフォンベースの方法は、KCを検出し、タイムリーな治療を合理化することが期待されています。

要約(オリジナル)

Keratoconus (KC) is a corneal disorder that results in blurry and distorted vision. Traditional diagnostic tools, while effective, are often bulky, costly, and require professional operation. In this paper, we present a portable and innovative methodology for diagnosing. Our proposed approach first captures the image reflected on the eye’s cornea when a smartphone screen-generated Placido disc sheds its light on an eye, then utilizes a two-stage diagnosis for identifying the KC cornea and pinpointing the location of the KC on the cornea. The first stage estimates the height and width of the Placido disc extracted from the captured image to identify whether it has KC. In this KC identification, k-means clustering is implemented to discern statistical characteristics, such as height and width values of extracted Placido discs, from non-KC (control) and KC-affected groups. The second stage involves the creation of a distance matrix, providing a precise localization of KC on the cornea, which is critical for efficient treatment planning. The analysis of these distance matrices, paired with a logistic regression model and robust statistical analysis, reveals a clear distinction between control and KC groups. The logistic regression model, which classifies small areas on the cornea as either control or KC-affected based on the corresponding inter-disc distances in the distance matrix, reported a classification accuracy of 96.94%, which indicates that we can effectively pinpoint the protrusion caused by KC. This comprehensive, smartphone-based method is expected to detect KC and streamline timely treatment.

arxiv情報

著者 Yifan Li,Peter Ho,Jo Woon Chong
発行日 2025-05-15 17:30:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | A portable diagnosis model for Keratoconus using a smartphone はコメントを受け付けていません

MASSV: Multimodal Adaptation and Self-Data Distillation for Speculative Decoding of Vision-Language Models

要約

投機的デコードは、軽量のドラフトモデルが複数のターゲットモデルが同時に検証することを提案できるようにすることにより、言語モデルの推論を大幅に加速します。
ただし、この手法をVision言語モデル(VLMS)に適用すると、2つの基本的な課題があります。効率的な起草者として機能する小言語モデルは、視覚入力を処理するためのアーキテクチャコンポーネントが欠けており、視覚コンテキストを考慮するVLMターゲットモデルの予測と一致することに失敗します。
視覚言語モデル(MASSV)の投機的デコードのためにマルチモーダル適応と自己データ蒸留を導入します。これは、既存の小言語モデルを2フェーズアプローチを通じて効果的なマルチモーダルドラフトに変換します。
MASSVは、最初にターゲットVLMのビジョンエンコーダーを軽量トレーニング可能なプロジェクターを介してドラフトモデルに接続し、次に、ターゲットVLMによって生成された応答を使用してトークン予測を調整するために自己拡張視覚命令チューニングを適用します。
QWEN2.5-VLおよびGEMMA3モデルファミリー全体の包括的な実験は、MASSVが受け入れられた長さを最大30%増加させ、視覚づけのタスクで最大1.46倍のエンドツーエンドの推論速度を提供することを示しています。
MASSVは、電流と将来のVLMの両方を加速するためのスケーラブルでアーキテクチャ互換の方法を提供します。

要約(オリジナル)

Speculative decoding significantly accelerates language model inference by enabling a lightweight draft model to propose multiple tokens that a larger target model verifies simultaneously. However, applying this technique to vision-language models (VLMs) presents two fundamental challenges: small language models that could serve as efficient drafters lack the architectural components to process visual inputs, and their token predictions fail to match those of VLM target models that consider visual context. We introduce Multimodal Adaptation and Self-Data Distillation for Speculative Decoding of Vision-Language Models (MASSV), which transforms existing small language models into effective multimodal drafters through a two-phase approach. MASSV first connects the target VLM’s vision encoder to the draft model via a lightweight trainable projector, then applies self-distilled visual instruction tuning using responses generated by the target VLM to align token predictions. Comprehensive experiments across the Qwen2.5-VL and Gemma3 model families demonstrate that MASSV increases accepted length by up to 30% and delivers end-to-end inference speedups of up to 1.46x on visually-grounded tasks. MASSV provides a scalable, architecture-compatible method for accelerating both current and future VLMs.

arxiv情報

著者 Mugilan Ganesan,Shane Segal,Ankur Aggarwal,Nish Sinnadurai,Sean Lie,Vithursan Thangarasa
発行日 2025-05-15 17:37:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | MASSV: Multimodal Adaptation and Self-Data Distillation for Speculative Decoding of Vision-Language Models はコメントを受け付けていません

Enhancing Multi-Image Question Answering via Submodular Subset Selection

要約

大規模なマルチモーダルモデル(LMM)は、単一の画像を含むビジョン言語タスクで高性能を達成しましたが、複数の画像のコレクション(複数の画像質問回答シナリオ)が表示されると苦労しています。
これらのタスクは、多数の画像にわたって推論を含む、スケーラビリティ(画像の数が増えて)と検索パフォーマンスの問題を提示します。
この作業では、サブモジュラーサブセット選択技術を使用して、Mirageモデルで導入されたRetriver Frameworkの強化を提案します。
メソッドは、GraphCutなどのクエリ認識サブモジュラー関数を活用して、メイン検索コンポーネントの前にセマンティックに関連する画像のサブセットを事前に選択します。
アンカーベースのクエリを使用してデータを拡張すると、特に大きな干し草のサイズにおいて、サブモジュラー – retrieverパイプラインの有効性が向上することを実証します。

要約(オリジナル)

Large multimodal models (LMMs) have achieved high performance in vision-language tasks involving single image but they struggle when presented with a collection of multiple images (Multiple Image Question Answering scenario). These tasks, which involve reasoning over large number of images, present issues in scalability (with increasing number of images) and retrieval performance. In this work, we propose an enhancement for retriever framework introduced in MIRAGE model using submodular subset selection techniques. Our method leverages query-aware submodular functions, such as GraphCut, to pre-select a subset of semantically relevant images before main retrieval component. We demonstrate that using anchor-based queries and augmenting the data improves submodular-retriever pipeline effectiveness, particularly in large haystack sizes.

arxiv情報

著者 Aaryan Sharma,Shivansh Gupta,Samar Agarwal,Vishak Prasad C.,Ganesh Ramakrishnan
発行日 2025-05-15 17:41:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Enhancing Multi-Image Question Answering via Submodular Subset Selection はコメントを受け付けていません

Exploring Implicit Visual Misunderstandings in Multimodal Large Language Models through Attention Analysis

要約

最近の進歩により、マルチイメージ情報を理解するためのマルチモーダル大手言語モデル(MLLM)の能力が向上しました。
ただし、既存のベンチマークは主に回答の正確さを評価し、モデルが視覚入力を本当に理解しているかどうかを見落としています。
これに対処するために、MLLMが視覚入力を完全に理解することなく正しい答えを提供する暗黙の視覚誤解(IVM)を定義します。
分析を通じて、原因注意モジュール内の視覚的およびテキストモダリティを分離し、ネットワークレイヤーが深くなるにつれて、注意分布が正解に関連する画像にますます収束することを明らかにします。
この洞察は、スケールに依存しないメトリック、\ textIT {注意精度}、およびIVMを定量化するための新しいベンチマークの導入につながります。
注意精度は、内部メカニズムを介してモデルの視覚的理解を直接評価し、より信頼性の高い評価のために位置バイアスに対して堅牢であり続けます。
さらに、より細かい粒度へのアプローチを拡張し、その汎用性と一般化可能性を強調して、単型シナリオでその有効性を実証します。

要約(オリジナル)

Recent advancements have enhanced the capability of Multimodal Large Language Models (MLLMs) to comprehend multi-image information. However, existing benchmarks primarily evaluate answer correctness, overlooking whether models genuinely comprehend the visual input. To address this, we define implicit visual misunderstanding (IVM), where MLLMs provide correct answers without fully comprehending the visual input. Through our analysis, we decouple the visual and textual modalities within the causal attention module, revealing that attention distribution increasingly converges on the image associated with the correct answer as the network layers deepen. This insight leads to the introduction of a scale-agnostic metric, \textit{attention accuracy}, and a novel benchmark for quantifying IVMs. Attention accuracy directly evaluates the model’s visual understanding via internal mechanisms, remaining robust to positional biases for more reliable assessments. Furthermore, we extend our approach to finer granularities and demonstrate its effectiveness in unimodal scenarios, underscoring its versatility and generalizability.

arxiv情報

著者 Pengfei Wang,Guohai Xu,Weinong Wang,Junjie Yang,Jie Lou,Yunhua Xue
発行日 2025-05-15 17:52:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Exploring Implicit Visual Misunderstandings in Multimodal Large Language Models through Attention Analysis はコメントを受け付けていません