Systematic Evaluation of Large Vision-Language Models for Surgical Artificial Intelligence

要約

大規模な視覚言語モデルは、AI主導の画像理解のための新しいパラダイムを提供し、タスク固有のトレーニングなしにタスクを実行することを可能にする。この柔軟性は、専門家の注釈付きデータが乏しい医療分野では特に有望である。しかし、意思決定が主観的であり、臨床シナリオが多様である、介入に焦点を当てた領域、特に外科手術において、VLMの実用性は不確かなままである。ここでは、腹腔鏡手術、ロボット手術、および開腹手術にまたがる13のデータセットを用いて、手術AIにおける17の主要な視覚的理解タスク(解剖学的認識から技能評価まで)にわたる、11の最先端のVLMの包括的な分析を示す。我々の実験では、VLMは有望な汎化性を示し、訓練環境外で展開された場合、教師ありモデルを上回ることもある。テスト中に例を組み込んだインコンテキスト学習は、性能を3倍まで向上させ、適応性が重要な強みであることを示唆している。それでも、空間的推論や時間的推論を必要とするタスクは依然として困難であった。我々の発見は、外科手術にとどまらず、臨床やより広範な実世界での応用において、複雑で動的なシナリオに取り組むVLMの可能性を示唆するものである。

要約(オリジナル)

Large Vision-Language Models offer a new paradigm for AI-driven image understanding, enabling models to perform tasks without task-specific training. This flexibility holds particular promise across medicine, where expert-annotated data is scarce. Yet, VLMs’ practical utility in intervention-focused domains–especially surgery, where decision-making is subjective and clinical scenarios are variable–remains uncertain. Here, we present a comprehensive analysis of 11 state-of-the-art VLMs across 17 key visual understanding tasks in surgical AI–from anatomy recognition to skill assessment–using 13 datasets spanning laparoscopic, robotic, and open procedures. In our experiments, VLMs demonstrate promising generalizability, at times outperforming supervised models when deployed outside their training setting. In-context learning, incorporating examples during testing, boosted performance up to three-fold, suggesting adaptability as a key strength. Still, tasks requiring spatial or temporal reasoning remained difficult. Beyond surgery, our findings offer insights into VLMs’ potential for tackling complex and dynamic scenarios in clinical and broader real-world applications.

arxiv情報

著者 Anita Rau,Mark Endo,Josiah Aklilu,Jaewoo Heo,Khaled Saab,Alberto Paderno,Jeffrey Jopling,F. Christopher Holsinger,Serena Yeung-Levy
発行日 2025-04-03 17:42:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | Systematic Evaluation of Large Vision-Language Models for Surgical Artificial Intelligence はコメントを受け付けていません

F-ViTA: Foundation Model Guided Visible to Thermal Translation

要約

赤外線画像は、特に低照度や夜間の状況把握に欠かせない。しかし、赤外線画像の撮影には特殊な装置が必要なため、大規模な赤外線データセットの収集にはコストと労力がかかる。この課題に対処するため、研究者は可視画像から熱画像への変換を模索してきた。既存の手法のほとんどは、生成逆説的ネットワーク(GAN)や拡散モデル(DM)に依存しており、タスクをスタイル変換問題として扱っている。その結果、これらのアプローチは、限られた学習データから、モダリティ分布シフトと基礎となる物理原理の両方を学習しようとする。本論文では、F-ViTAを提案する。F-ViTAは、基礎モデルに埋め込まれた一般的な世界知識を活用し、翻訳を改善するための拡散プロセスを導く新しいアプローチである。具体的には、InstructPix2Pix拡散モデルを、SAMやGrounded DINOのような基礎モデルからのゼロショットマスクとラベルで条件付ける。これにより、このモデルはシーンオブジェクトと赤外線画像中の熱シグネチャとの間の意味のある相関関係を学習することができる。5つの公開データセットを用いた広範な実験により、F-ViTAが最先端の(SOTA)手法を凌駕することが実証された。さらに、我々のモデルは分布外(OOD)シナリオによく一般化し、同じ可視画像から長波赤外線(LWIR)、中波赤外線(MWIR)、近赤外線(NIR)の変換を生成することができる。コード: https://github.com/JayParanjape/F-ViTA/tree/master.

要約(オリジナル)

Thermal imaging is crucial for scene understanding, particularly in low-light and nighttime conditions. However, collecting large thermal datasets is costly and labor-intensive due to the specialized equipment required for infrared image capture. To address this challenge, researchers have explored visible-to-thermal image translation. Most existing methods rely on Generative Adversarial Networks (GANs) or Diffusion Models (DMs), treating the task as a style transfer problem. As a result, these approaches attempt to learn both the modality distribution shift and underlying physical principles from limited training data. In this paper, we propose F-ViTA, a novel approach that leverages the general world knowledge embedded in foundation models to guide the diffusion process for improved translation. Specifically, we condition an InstructPix2Pix Diffusion Model with zero-shot masks and labels from foundation models such as SAM and Grounded DINO. This allows the model to learn meaningful correlations between scene objects and their thermal signatures in infrared imagery. Extensive experiments on five public datasets demonstrate that F-ViTA outperforms state-of-the-art (SOTA) methods. Furthermore, our model generalizes well to out-of-distribution (OOD) scenarios and can generate Long-Wave Infrared (LWIR), Mid-Wave Infrared (MWIR), and Near-Infrared (NIR) translations from the same visible image. Code: https://github.com/JayParanjape/F-ViTA/tree/master.

arxiv情報

著者 Jay N. Paranjape,Celso de Melo,Vishal M. Patel
発行日 2025-04-03 17:47:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | F-ViTA: Foundation Model Guided Visible to Thermal Translation はコメントを受け付けていません

BOP Challenge 2024 on Model-Based and Model-Free 6D Object Pose Estimation

要約

BOPチャレンジ2024の評価方法、データセット、結果について発表する。BOPチャレンジ2024は、6次元物体ポーズ推定と関連タスクの技術状況を把握するために開催された公開コンペティションの第6回である。2024年、我々の目標は、BOPを実験室のようなセットアップから実世界のシナリオに移行させることであった。第一に、3Dオブジェクトモデルが利用できず、提供された参照ビデオのみからオブジェクトを搭載する必要がある、新しいモデルフリータスクを導入しました。第二に、より実用的な新しい6次元物体検出タスクを定義し、テスト画像に見える物体の識別情報を入力として提供しない。第三に、高解像度センサーとAR/VRヘッドセットで記録された、実世界のシナリオに近い新しいBOP-H3データセットを導入した。BOP-H3には、モデルベースとモデルフリーの両方のタスクをサポートする3Dモデルとオンボードビデオが含まれています。参加者は、タスク、オブジェクトのオンボーディングセットアップ、データセットグループによって定義された7つのチャレンジトラックで競った。注目すべきは、モデルベース6Dローカライゼーションの2024年最優秀手法(FreeZeV2.1)は、BOP-Classic-Coreにおいて、2023年最優秀手法(GenFlow)よりも22%高い精度を達成し、2023年最優秀手法(GPose2023)とは4%しか差がなかったことです。このタスクのより実用的な2024メソッドはCo-opで、1画像あたり0.8秒しかかからず、GenFlowより25倍速く、13%正確です。各手法は6Dローカライゼーションと同様に6D検出においても同様の順位にあるが、実行時間はより長い。未見のオブジェクトのモデルベースの2D検出では、2024の手法の中で最も優れた手法(MUSE)は、2023の手法の中で最も優れた手法(CNOS)と比較して、21%の相対的な改善を達成している。しかし、未視認物体の2次元検出精度は、視認物体の検出精度(GDet2023)に比べ、まだ顕著に(-53%)遅れている。オンライン評価システムはオープンで、http://bop.felk.cvut.cz/。

要約(オリジナル)

We present the evaluation methodology, datasets and results of the BOP Challenge 2024, the sixth in a series of public competitions organized to capture the state of the art in 6D object pose estimation and related tasks. In 2024, our goal was to transition BOP from lab-like setups to real-world scenarios. First, we introduced new model-free tasks, where no 3D object models are available and methods need to onboard objects just from provided reference videos. Second, we defined a new, more practical 6D object detection task where identities of objects visible in a test image are not provided as input. Third, we introduced new BOP-H3 datasets recorded with high-resolution sensors and AR/VR headsets, closely resembling real-world scenarios. BOP-H3 include 3D models and onboarding videos to support both model-based and model-free tasks. Participants competed on seven challenge tracks, each defined by a task, object onboarding setup, and dataset group. Notably, the best 2024 method for model-based 6D localization of unseen objects (FreeZeV2.1) achieves 22% higher accuracy on BOP-Classic-Core than the best 2023 method (GenFlow), and is only 4% behind the best 2023 method for seen objects (GPose2023) although being significantly slower (24.9 vs 2.7s per image). A more practical 2024 method for this task is Co-op which takes only 0.8s per image and is 25X faster and 13% more accurate than GenFlow. Methods have a similar ranking on 6D detection as on 6D localization but higher run time. On model-based 2D detection of unseen objects, the best 2024 method (MUSE) achieves 21% relative improvement compared to the best 2023 method (CNOS). However, the 2D detection accuracy for unseen objects is still noticealy (-53%) behind the accuracy for seen objects (GDet2023). The online evaluation system stays open and is available at http://bop.felk.cvut.cz/

arxiv情報

著者 Van Nguyen Nguyen,Stephen Tyree,Andrew Guo,Mederic Fourmy,Anas Gouda,Taeyeop Lee,Sungphill Moon,Hyeontae Son,Lukas Ranftl,Jonathan Tremblay,Eric Brachmann,Bertram Drost,Vincent Lepetit,Carsten Rother,Stan Birchfield,Jiri Matas,Yann Labbe,Martin Sundermeyer,Tomas Hodan
発行日 2025-04-03 17:55:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | BOP Challenge 2024 on Model-Based and Model-Free 6D Object Pose Estimation はコメントを受け付けていません

HATFormer: Historic Handwritten Arabic Text Recognition with Transformers

要約

アラビア語の手書きテキスト認識(HTR)は、多様な書き方やアラビア文字固有の特徴のため、特に歴史的なテキストでは困難である。さらに、アラビア語の手書き文字データセットは英語のデータセットに比べて小さいため、一般化可能なアラビア語のHTRモデルの学習が困難である。このような課題に対処するため、我々はHATFormerを提案する。HATFormerは、最先端の英語HTRモデルをベースにした、変換器ベースのエンコーダ・デコーダ・アーキテクチャである。変換器の注意メカニズムを活用することで、HATFormer は空間的な文脈情報を捕捉し、草書体の区別、視覚的表現の分解、および発音区分の識別を通じて、アラビア文字の本質的な課題に対処する。歴史的な手書きアラビア文字用にカスタマイズされたHATFormerには、効果的なViT情報の前処理のための画像プロセッサ、コンパクトなアラビア語テキスト表現のためのテキスト・トークナイザ、および限られた量の歴史的なアラビア語の手書きデータを考慮した学習パイプラインが含まれています。HATFormerは、公開されている最大の歴史的手書きアラビア語データセットで8.6%の文字誤り率(CER)を達成し、文献にある最良のベースラインよりも51%向上しています。HATFormerはまた、非歴史的な最大の私的データセットでも4.2%の同等のCERを達成している。我々の研究は、英語のHTR手法を、言語特有の複雑な課題を抱える低リソース言語に適応させることの実現可能性を示し、文書のデジタル化、情報検索、文化保存の進歩に貢献するものである。

要約(オリジナル)

Arabic handwritten text recognition (HTR) is challenging, especially for historical texts, due to diverse writing styles and the intrinsic features of Arabic script. Additionally, Arabic handwriting datasets are smaller compared to English ones, making it difficult to train generalizable Arabic HTR models. To address these challenges, we propose HATFormer, a transformer-based encoder-decoder architecture that builds on a state-of-the-art English HTR model. By leveraging the transformer’s attention mechanism, HATFormer captures spatial contextual information to address the intrinsic challenges of Arabic script through differentiating cursive characters, decomposing visual representations, and identifying diacritics. Our customization to historical handwritten Arabic includes an image processor for effective ViT information preprocessing, a text tokenizer for compact Arabic text representation, and a training pipeline that accounts for a limited amount of historic Arabic handwriting data. HATFormer achieves a character error rate (CER) of 8.6% on the largest public historical handwritten Arabic dataset, with a 51% improvement over the best baseline in the literature. HATFormer also attains a comparable CER of 4.2% on the largest private non-historical dataset. Our work demonstrates the feasibility of adapting an English HTR method to a low-resource language with complex, language-specific challenges, contributing to advancements in document digitization, information retrieval, and cultural preservation.

arxiv情報

著者 Adrian Chan,Anupam Mijar,Mehreen Saeed,Chau-Wai Wong,Akram Khater
発行日 2025-04-03 17:56:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.LG | HATFormer: Historic Handwritten Arabic Text Recognition with Transformers はコメントを受け付けていません

Efficient Autoregressive Shape Generation via Octree-Based Adaptive Tokenization

要約

多くの3D生成モデルは、コンパクトな形状表現を学習するために変分オートエンコーダ(VAE)に依存している。しかし、既存の手法では、3Dデータに内在するスケールや複雑さのばらつきを無視して、すべての形状を固定サイズのトークンにエンコードしている。これは非効率的な潜在表現につながり、下流の生成を損なう可能性がある。我々は、Octree-based Adaptive Tokenizationを導入することで、この課題に対処する。Octree-based Adaptive Tokenizationは、形状の複雑さに応じて潜在表現の次元を調整する新しいフレームワークである。本アプローチでは、4次エラーに基づく細分化基準によって適応的なオクツリー構造を構築し、クエリベースの変換器を用いて各オクツリーセルに形状潜在ベクトルを割り当てる。このトークン化を基に、形状生成においてこれらの可変サイズ表現を効果的に活用する、オクツリーベースの自己回帰生成モデルを開発する。広範な実験により、本アプローチは、同程度の視覚的品質を維持しながら、固定サイズの手法と比較してトークン数を50%削減できることが実証された。同程度のトークン長を使用した場合、本手法は著しく高品質な形状を生成する。我々の下流の生成モデルと組み合わせることで、我々の手法は既存のアプローチよりも詳細で多様な3Dコンテンツを生成する。

要約(オリジナル)

Many 3D generative models rely on variational autoencoders (VAEs) to learn compact shape representations. However, existing methods encode all shapes into a fixed-size token, disregarding the inherent variations in scale and complexity across 3D data. This leads to inefficient latent representations that can compromise downstream generation. We address this challenge by introducing Octree-based Adaptive Tokenization, a novel framework that adjusts the dimension of latent representations according to shape complexity. Our approach constructs an adaptive octree structure guided by a quadric-error-based subdivision criterion and allocates a shape latent vector to each octree cell using a query-based transformer. Building upon this tokenization, we develop an octree-based autoregressive generative model that effectively leverages these variable-sized representations in shape generation. Extensive experiments demonstrate that our approach reduces token counts by 50% compared to fixed-size methods while maintaining comparable visual quality. When using a similar token length, our method produces significantly higher-quality shapes. When incorporated with our downstream generative model, our method creates more detailed and diverse 3D content than existing approaches.

arxiv情報

著者 Kangle Deng,Hsueh-Ti Derek Liu,Yiheng Zhu,Xiaoxia Sun,Chong Shang,Kiran Bhat,Deva Ramanan,Jun-Yan Zhu,Maneesh Agrawala,Tinghui Zhou
発行日 2025-04-03 17:57:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Efficient Autoregressive Shape Generation via Octree-Based Adaptive Tokenization はコメントを受け付けていません

GMR-Conv: An Efficient Rotation and Reflection Equivariant Convolution Kernel Using Gaussian Mixture Rings

要約

ある特徴が幾何学的な変換の下でも不変である対称性は、畳み込みニューラルネットワーク(CNN)を設計する際に、しばしば強力な事前知識として機能する。従来のCNNは本質的に並進等価性をサポートするが、この特性を回転や反射に拡張することは困難であることが判明しており、しばしば等価性、効率、情報損失の間で妥協せざるを得ない。本研究では、ガウス混合リング畳み込み(GMR-Conv)を導入する。これは、ガウス重みリングの混合を用いて放射状の対称性を平滑化する効率的な畳み込みカーネルである。この設計により、円形カーネルの離散化誤差を軽減し、計算オーバーヘッドを発生させることなく、ロバストな回転と反射の等価性を保持する。さらに、新しいパラメータ化と計算戦略により、GMR-Convの空間効率と速度効率の両方を最適化し、許容可能なコストでより大きなカーネルを可能にする。8つの分類データセットと1つのセグメンテーションデータセットを用いた広範な実験により、GMR-Convは従来のCNNの性能に匹敵するだけでなく、向きのないデータを用いたアプリケーションではそれを上回ることができることが実証された。また、GMR-Convは最先端の等変量学習法よりも頑健で効率的であることも証明された。我々の研究は、放射状の対称性を注意深く適用することで、情報損失の課題を軽減できることを示す刺激的な経験的証拠を提供し、等変量ネットワークアーキテクチャにおける有望な進歩を示すものである。コードはhttps://github.com/XYPB/GMR-Conv。

要約(オリジナル)

Symmetry, where certain features remain invariant under geometric transformations, can often serve as a powerful prior in designing convolutional neural networks (CNNs). While conventional CNNs inherently support translational equivariance, extending this property to rotation and reflection has proven challenging, often forcing a compromise between equivariance, efficiency, and information loss. In this work, we introduce Gaussian Mixture Ring Convolution (GMR-Conv), an efficient convolution kernel that smooths radial symmetry using a mixture of Gaussian-weighted rings. This design mitigates discretization errors of circular kernels, thereby preserving robust rotation and reflection equivariance without incurring computational overhead. We further optimize both the space and speed efficiency of GMR-Conv via a novel parameterization and computation strategy, allowing larger kernels at an acceptable cost. Extensive experiments on eight classification and one segmentation datasets demonstrate that GMR-Conv not only matches conventional CNNs’ performance but can also surpass it in applications with orientation-less data. GMR-Conv is also proven to be more robust and efficient than the state-of-the-art equivariant learning methods. Our work provides inspiring empirical evidence that carefully applied radial symmetry can alleviate the challenges of information loss, marking a promising advance in equivariant network architectures. The code is available at https://github.com/XYPB/GMR-Conv.

arxiv情報

著者 Yuexi Du,Jiazhen Zhang,Nicha C. Dvornek,John A. Onofrey
発行日 2025-04-03 17:58:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, eess.IV, eess.SP | GMR-Conv: An Efficient Rotation and Reflection Equivariant Convolution Kernel Using Gaussian Mixture Rings はコメントを受け付けていません

Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models

要約

スパースオートエンコーダ(SAE)は近年、大規模言語モデル(LLM)における解釈可能性と操縦可能性を向上させることが示されている。本研究では、CLIPのような視覚言語モデル(VLM)へのSAEの適用を拡張し、視覚表現における単意味性を評価するための包括的なフレームワークを導入する。我々の実験結果から、VLMで学習されたSAEは、個々のニューロンの単意味性を著しく高めると同時に、専門家が定義した構造(iNaturalist分類法など)とよく一致する階層的な表現を示すことが明らかになった。最も注目すべきは、SAEをCLIP視覚エンコーダに介入させることで、基礎となるモデルに変更を加えることなく、マルチモーダルLLM(例えばLLaVA)からの出力を直接制御できることを実証したことである。これらの発見は、VLMの解釈可能性と制御の両方を強化するための教師なしアプローチとしてのSAEの実用性と有効性を強調している。

要約(オリジナル)

Sparse Autoencoders (SAEs) have recently been shown to enhance interpretability and steerability in Large Language Models (LLMs). In this work, we extend the application of SAEs to Vision-Language Models (VLMs), such as CLIP, and introduce a comprehensive framework for evaluating monosemanticity in vision representations. Our experimental results reveal that SAEs trained on VLMs significantly enhance the monosemanticity of individual neurons while also exhibiting hierarchical representations that align well with expert-defined structures (e.g., iNaturalist taxonomy). Most notably, we demonstrate that applying SAEs to intervene on a CLIP vision encoder, directly steer output from multimodal LLMs (e.g., LLaVA) without any modifications to the underlying model. These findings emphasize the practicality and efficacy of SAEs as an unsupervised approach for enhancing both the interpretability and control of VLMs.

arxiv情報

著者 Mateusz Pach,Shyamgopal Karthik,Quentin Bouniot,Serge Belongie,Zeynep Akata
発行日 2025-04-03 17:58:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG | Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models はコメントを受け付けていません

STING-BEE: Towards Vision-Language Model for Real-World X-ray Baggage Security Inspection

要約

コンピュータ支援スクリーニング(CAS)システムの進歩は、X線手荷物検査におけるセキュリティ脅威の検出を改善するために不可欠である。しかし、現在のデータセットは、現実世界の高度な脅威や隠蔽戦術を表現するには限界があり、既存のアプローチは、事前に定義されたラベルを持つクローズドセットパラダイムに制約されている。これらの課題を解決するために、我々は、空港のセキュリティ用X線スキャナーを使用して生成された、21の脅威カテゴリーにわたる46,642の画像とキャプションのペアスキャンからなる、初のマルチモーダルX線手荷物セキュリティデータセットであるSTCrayを紹介する。STCrayは、X線手荷物セキュリティーにおけるマルチモーダルな指示データに続く、ドメインを意識した首尾一貫したキャプションを保証する、我々の特別なプロトコルで綿密に開発されている。これにより、STING-BEEと名付けられた領域を意識した視覚AIアシスタントを訓練することができ、シーン理解、脅威の特定、視覚的接地、視覚的質問応答(VQA)などの視覚言語タスクをサポートし、X線手荷物検査におけるマルチモーダル学習の新しいベースラインを確立する。さらに、STING-BEEは、領域横断的な設定において最先端の汎化を示しています。コード、データ、モデルはhttps://divs1159.github.io/STING-BEE/。

要約(オリジナル)

Advancements in Computer-Aided Screening (CAS) systems are essential for improving the detection of security threats in X-ray baggage scans. However, current datasets are limited in representing real-world, sophisticated threats and concealment tactics, and existing approaches are constrained by a closed-set paradigm with predefined labels. To address these challenges, we introduce STCray, the first multimodal X-ray baggage security dataset, comprising 46,642 image-caption paired scans across 21 threat categories, generated using an X-ray scanner for airport security. STCray is meticulously developed with our specialized protocol that ensures domain-aware, coherent captions, that lead to the multi-modal instruction following data in X-ray baggage security. This allows us to train a domain-aware visual AI assistant named STING-BEE that supports a range of vision-language tasks, including scene comprehension, referring threat localization, visual grounding, and visual question answering (VQA), establishing novel baselines for multi-modal learning in X-ray baggage security. Further, STING-BEE shows state-of-the-art generalization in cross-domain settings. Code, data, and models are available at https://divs1159.github.io/STING-BEE/.

arxiv情報

著者 Divya Velayudhan,Abdelfatah Ahmed,Mohamad Alansari,Neha Gour,Abderaouf Behouch,Taimur Hassan,Syed Talal Wasim,Nabil Maalej,Muzammal Naseer,Juergen Gall,Mohammed Bennamoun,Ernesto Damiani,Naoufel Werghi
発行日 2025-04-03 17:59:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV | STING-BEE: Towards Vision-Language Model for Real-World X-ray Baggage Security Inspection はコメントを受け付けていません

THRONE: An Object-based Hallucination Benchmark for the Free-form Generations of Large Vision-Language Models

要約

大規模視覚言語モデル(LVLM)における幻覚の軽減は、依然として未解決の問題である。最近のベンチマークでは、自由形式の回答における幻覚は扱われていない。その代わりに、非常に具体的な質問形式–典型的には、特定の物体や属性に関する多肢選択式回答–に反応する幻覚に焦点が当てられており、私たちはこれを「タイプIIの幻覚」と呼んでいる。さらに、このようなベンチマークは、しばしば、変更される可能性のあるモデルへの外部APIコールを必要とする。実際には、タイプⅡの幻覚の減少がタイプⅠの幻覚の減少につながるのではなく、2つの幻覚がしばしば反相関していることが観察される。この問題に対処するため、我々は、LVLM自由形式出力におけるタイプI幻覚を定量的に評価するための、新しいオブジェクトベースの自動フレームワークであるTHRONEを提案する。公開言語モデル(LM)を用いて、LVLM応答中の幻覚を識別し、有益な評価指標を計算する。公開データセットを用いて最近のLVLMの大規模な選択を評価することにより、既存の測定基準の改善はタイプI幻覚の減少につながらないこと、およびタイプI幻覚を測定するための確立されたベンチマークは不完全であることを示す。最後に、強力なベースラインとして、タイプIとタイプIIの幻覚を減らすためのシンプルで効果的なデータ増強法を提供する。コードは現在https://github.com/amazon-science/THRONE 。

要約(オリジナル)

Mitigating hallucinations in large vision-language models (LVLMs) remains an open problem. Recent benchmarks do not address hallucinations in open-ended free-form responses, which we term ‘Type I hallucinations’. Instead, they focus on hallucinations responding to very specific question formats — typically a multiple-choice response regarding a particular object or attribute — which we term ‘Type II hallucinations’. Additionally, such benchmarks often require external API calls to models which are subject to change. In practice, we observe that a reduction in Type II hallucinations does not lead to a reduction in Type I hallucinations but rather that the two forms of hallucinations are often anti-correlated. To address this, we propose THRONE, a novel object-based automatic framework for quantitatively evaluating Type I hallucinations in LVLM free-form outputs. We use public language models (LMs) to identify hallucinations in LVLM responses and compute informative metrics. By evaluating a large selection of recent LVLMs using public datasets, we show that an improvement in existing metrics do not lead to a reduction in Type I hallucinations, and that established benchmarks for measuring Type I hallucinations are incomplete. Finally, we provide a simple and effective data augmentation method to reduce Type I and Type II hallucinations as a strong baseline. Code is now available at https://github.com/amazon-science/THRONE .

arxiv情報

著者 Prannay Kaul,Zhizhong Li,Hao Yang,Yonatan Dukler,Ashwin Swaminathan,C. J. Taylor,Stefano Soatto
発行日 2025-04-03 17:59:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG | THRONE: An Object-based Hallucination Benchmark for the Free-form Generations of Large Vision-Language Models はコメントを受け付けていません

Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing

要約

ラージ・マルチ・モダリティ・モデル(LMM)は、視覚の理解と生成において大きな進歩を遂げたが、一般的な視覚編集においては、特に複雑な指示に従うこと、外観の一貫性を保つこと、柔軟な入力形式をサポートすることなどの課題に直面している。このギャップに対処するため、我々は推論に基づくビジュアル編集(RISE)を評価する最初のベンチマークであるRISEBenchを紹介する。RISEBenchは4つの主要な推論タイプに焦点を当てている:時間的推論、因果的推論、空間的推論、論理的推論である。各カテゴリごとに高品質なテストケースを作成し、人間のジャッジとLMM-as-a-judgeアプローチの両方で、命令推論、外観の一貫性、視覚的妥当性を評価する評価フレームワークを提案する。我々の実験により、GPT-4o-Nativeは他のオープンソースやプロプライエタリモデルを大きく上回るが、この最先端のシステムでさえ論理的推論タスクでは苦戦することが明らかになった。初期の取り組みとして、RISEBenchは推論を考慮したビジュアル編集に関する基礎的な洞察を提供し、将来の研究を促進することを目的としています。まだ初期段階ですが、次世代のマルチモーダルシステムのより包括的で、信頼性が高く、スケーラブルな評価をサポートするために、このベンチマークを継続的に拡張し、改良していきます。我々のコードとデータは、https://github.com/PhoenixZ810/RISEBench。

要約(オリジナル)

Large Multi-modality Models (LMMs) have made significant progress in visual understanding and generation, but they still face challenges in General Visual Editing, particularly in following complex instructions, preserving appearance consistency, and supporting flexible input formats. To address this gap, we introduce RISEBench, the first benchmark for evaluating Reasoning-Informed viSual Editing (RISE). RISEBench focuses on four key reasoning types: Temporal, Causal, Spatial, and Logical Reasoning. We curate high-quality test cases for each category and propose an evaluation framework that assesses Instruction Reasoning, Appearance Consistency, and Visual Plausibility with both human judges and an LMM-as-a-judge approach. Our experiments reveal that while GPT-4o-Native significantly outperforms other open-source and proprietary models, even this state-of-the-art system struggles with logical reasoning tasks, highlighting an area that remains underexplored. As an initial effort, RISEBench aims to provide foundational insights into reasoning-aware visual editing and to catalyze future research. Though still in its early stages, we are committed to continuously expanding and refining the benchmark to support more comprehensive, reliable, and scalable evaluations of next-generation multimodal systems. Our code and data will be released at https://github.com/PhoenixZ810/RISEBench.

arxiv情報

著者 Xiangyu Zhao,Peiyuan Zhang,Kexian Tang,Hao Li,Zicheng Zhang,Guangtao Zhai,Junchi Yan,Hua Yang,Xue Yang,Haodong Duan
発行日 2025-04-03 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing はコメントを受け付けていません