New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration

要約

参照式理解(REC)は、言語の理解、イメージの理解、言語から画像への接地の相互作用を評価する基本的なクロスモーダルタスクです。
マルチモーダルの大手言語モデル(MLLMS)の必須テストの場として機能します。
このフィールドを進めるために、2つの重要な機能を特徴とする以前の会議用紙に新しいRECデータセットを導入しました。
まず、制御可能な難易度レベルで設計されており、オブジェクトカテゴリ、属性、およびマルチホップ関係を越えてマルチレベルの微調整された推論が必要です。
第二に、微調整された編集と増強によって生成されたネガティブテキストと画像が組み込まれ、ターゲットオブジェクトが存在しないシナリオを拒否するモデルの能力を明示的にテストします。
この拡張作業では、専門モデルとMLLMの強度を組み合わせることにより、細粒のRecの課題に取り組むための2つの新しい方法を提案します。
最初の方法は、より高速の軽量モデルに単純なケースを適応的に割り当て、複雑なモデルを強力なMLLMのために留保し、精度と効率のバランスを取ります。
2番目の方法により、スペシャリストは可能なオブジェクト領域のセットを生成でき、MLLMはその推論能力を使用して最ももっともらしいものを選択します。
これらの共同戦略は、データセットやその他の挑戦的なベンチマークの大幅な改善につながります。
私たちの結果は、特殊なモデルと汎用モデルを組み合わせることで、複雑な現実世界のビジョン言語タスクを解決するための実用的な道を提供することを示しています。
データセットとコードは、https://github.com/sleepyshep/finecops-refで入手できます。

要約(オリジナル)

Referring Expression Comprehension (REC) is a foundational cross-modal task that evaluates the interplay of language understanding, image comprehension, and language-to-image grounding. It serves as an essential testing ground for Multimodal Large Language Models (MLLMs). To advance this field, we introduced a new REC dataset in our previous conference paper, characterized by two key features. First, it is designed with controllable difficulty levels, requiring multi-level fine-grained reasoning across object categories, attributes, and multi-hop relationships. Second, it incorporates negative text and images generated through fine-grained editing and augmentation, explicitly testing a model’s ability to reject scenarios where the target object is absent, an often overlooked yet critical challenge in existing datasets. In this extended work, we propose two new methods to tackle the challenges of fine-grained REC by combining the strengths of Specialist Models and MLLMs. The first method adaptively assigns simple cases to faster, lightweight models and reserves complex ones for powerful MLLMs, balancing accuracy and efficiency. The second method lets a specialist generate a set of possible object regions, and the MLLM selects the most plausible one using its reasoning ability. These collaborative strategies lead to significant improvements on our dataset and other challenging benchmarks. Our results show that combining specialized and general-purpose models offers a practical path toward solving complex real-world vision-language tasks. Our dataset and code are available at https://github.com/sleepyshep/FineCops-Ref.

arxiv情報

著者 Xuzheng Yang,Junzhuo Liu,Peng Wang,Guoqing Wang,Yang Yang,Heng Tao Shen
発行日 2025-06-13 16:17:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration はコメントを受け付けていません

Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation

要約

反りと侵入の方法論を介して、整列した新規ビューイメージとジオメトリ生成を実行する拡散ベースのフレームワークを紹介します。
密なポーズ画像またはドメイン内ビューに限定されたポーズ埋め込まれた生成モデルを必要とする以前の方法とは異なり、私たちの方法は、既製のジオメトリ予測因子を参照画像から見ている部分的なジオメトリを予測し、画像とジオメトリの両方のパインティングタスクとして新規ビュー合成を定式化します。
生成された画像とジオメトリ間の正確なアライメントを確保するために、トレーニングと推論の両方で画像拡散分岐からの注意マップが並列ジオメトリ拡散分岐に注入されるクロスモーダルの注意蒸留を提案します。
このマルチタスクアプローチは、相乗効果を達成し、幾何学的に堅牢な画像合成と明確に定義されたジオメトリ予測を促進します。
さらに、近接ベースのメッシュコンディショニングを導入して深さと通常のキューを統合し、ポイントクラウドとフィルタリングを補間し、生成プロセスに影響を与えることから誤って予測されたジオメトリを誤って予測します。
経験的には、私たちの方法は、さまざまな目に見えないシーンにわたって画像とジオメトリの両方で高忠実度の外挿ビュー合成を達成し、補間設定の下で競争力のある再構成品質を提供し、包括的な3D完了のために幾何学的に整列した色の雲を生成します。
プロジェクトページは、https://cvlab-kaist.github.io/moaiで入手できます。

要約(オリジナル)

We introduce a diffusion-based framework that performs aligned novel view image and geometry generation via a warping-and-inpainting methodology. Unlike prior methods that require dense posed images or pose-embedded generative models limited to in-domain views, our method leverages off-the-shelf geometry predictors to predict partial geometries viewed from reference images, and formulates novel-view synthesis as an inpainting task for both image and geometry. To ensure accurate alignment between generated images and geometry, we propose cross-modal attention distillation, where attention maps from the image diffusion branch are injected into a parallel geometry diffusion branch during both training and inference. This multi-task approach achieves synergistic effects, facilitating geometrically robust image synthesis as well as well-defined geometry prediction. We further introduce proximity-based mesh conditioning to integrate depth and normal cues, interpolating between point cloud and filtering erroneously predicted geometry from influencing the generation process. Empirically, our method achieves high-fidelity extrapolative view synthesis on both image and geometry across a range of unseen scenes, delivers competitive reconstruction quality under interpolation settings, and produces geometrically aligned colored point clouds for comprehensive 3D completion. Project page is available at https://cvlab-kaist.github.io/MoAI.

arxiv情報

著者 Min-Seop Kwak,Junho Kim,Sangdoo Yun,Dongyoon Han,Taekyoung Kim,Seungryong Kim,Jin-Hwa Kim
発行日 2025-06-13 16:19:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation はコメントを受け付けていません

Real-World Deployment of a Lane Change Prediction Architecture Based on Knowledge Graph Embeddings and Bayesian Inference

要約

レーン変化予測に関する研究は、ここ数年で多くの勢いを獲得しました。
ただし、ほとんどの研究は、データセットから得られたシミュレーションまたは結果に限定されており、アルゴリズムの進歩とオンロード展開の間にギャップを残しています。
この作業は、知識グラフ埋め込み(KGE)とベイジアン推論に基づいたレーン変更予測システムを実証することにより、そのギャップを閉じます。
さらに、エゴベヒクルは縦方向のブレーキング作用を採用して、それ自体と周囲の車両の両方の安全性を確保しています。
私たちのアーキテクチャは、次の2つのモジュールで構成されています。(i)環境を感知し、入力数値の特徴を導き出し、それらを言語カテゴリに変換する知覚モジュール。
それらを予測モジュールに伝えます。
(ii)KGEおよびベイジアン推論モデルを実行してターゲットビークルの操作を予測し、予測を縦方向のブレーキアクションに変換する前処理された予測モジュール。
現実世界のハードウェア実験的検証は、予測システムがターゲットビークルの車線が事前に3〜4秒変化することを予測し、エゴ車両に反応するのに十分な時間を提供し、ターゲット車両が車線を安全に変更できるようにすることを示しています。

要約(オリジナル)

Research on lane change prediction has gained a lot of momentum in the last couple of years. However, most research is confined to simulation or results obtained from datasets, leaving a gap between algorithmic advances and on-road deployment. This work closes that gap by demonstrating, on real hardware, a lane-change prediction system based on Knowledge Graph Embeddings (KGEs) and Bayesian inference. Moreover, the ego-vehicle employs a longitudinal braking action to ensure the safety of both itself and the surrounding vehicles. Our architecture consists of two modules: (i) a perception module that senses the environment, derives input numerical features, and converts them into linguistic categories; and communicates them to the prediction module; (ii) a pretrained prediction module that executes a KGE and Bayesian inference model to anticipate the target vehicle’s maneuver and transforms the prediction into longitudinal braking action. Real-world hardware experimental validation demonstrates that our prediction system anticipates the target vehicle’s lane change three to four seconds in advance, providing the ego vehicle sufficient time to react and allowing the target vehicle to make the lane change safely.

arxiv情報

著者 M. Manzour,Catherine M. Elias,Omar M. Shehata,R. Izquierdo,M. A. Sotelo
発行日 2025-06-13 16:24:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR, cs.CV, cs.LG | Real-World Deployment of a Lane Change Prediction Architecture Based on Knowledge Graph Embeddings and Bayesian Inference はコメントを受け付けていません

Evaluating Sensitivity Parameters in Smartphone-Based Gaze Estimation: A Comparative Study of Appearance-Based and Infrared Eye Trackers

要約

この研究では、パフォーマンスを商用赤外線ベースのアイトラッカーであるTobii Pro Nanoと比較することにより、スマートフォンベースの深い学習目の視線アルゴリズムを評価します。
目的は、現実的なモバイル使用条件下での外観ベースの視線推定の実現可能性を調査することです。
年齢、性別、視力補正、照明条件、デバイスの種類、ヘッド位置などの主要な感度因子を体系的に分析しました。
外観ベースのアルゴリズムは、軽量の畳み込みニューラルネットワーク(MobileNet-V3)を再発構造(長期短期メモリ)と統合して、グレースケールのフェイシャル画像の視線座標を予測します。
動的視覚刺激を使用して51人の参加者から視線データを収集し、ユークリッド距離を使用して精度を測定しました。
深い学習モデルは、Tobii Pro Nanoの16.53 mmと比較して、17.76 mmの平均誤差を生成しました。
全体的な精度の違いは小さかったが、深い学習ベースの方法は、照明、視力補正、年齢などの要因により敏感であり、メガネを使用した参加者や高齢者グループの低光条件下で観察される故障率が高い。
デバイス固有および位置要因も追跡性能に影響を与えました。
これらの結果は、モバイルアイトラッキングの外観ベースのアプローチの可能性を強調し、さまざまな使用状況にわたって視線推定システムを評価するための参照フレームワークを提供します。

要約(オリジナル)

This study evaluates a smartphone-based, deep-learning eye-tracking algorithm by comparing its performance against a commercial infrared-based eye tracker, the Tobii Pro Nano. The aim is to investigate the feasibility of appearance-based gaze estimation under realistic mobile usage conditions. Key sensitivity factors, including age, gender, vision correction, lighting conditions, device type, and head position, were systematically analysed. The appearance-based algorithm integrates a lightweight convolutional neural network (MobileNet-V3) with a recurrent structure (Long Short-Term Memory) to predict gaze coordinates from grayscale facial images. Gaze data were collected from 51 participants using dynamic visual stimuli, and accuracy was measured using Euclidean distance. The deep learning model produced a mean error of 17.76 mm, compared to 16.53 mm for the Tobii Pro Nano. While overall accuracy differences were small, the deep learning-based method was more sensitive to factors such as lighting, vision correction, and age, with higher failure rates observed under low-light conditions among participants using glasses and in older age groups. Device-specific and positional factors also influenced tracking performance. These results highlight the potential of appearance-based approaches for mobile eye tracking and offer a reference framework for evaluating gaze estimation systems across varied usage conditions.

arxiv情報

著者 Nishan Gunawardena,Gough Yumu Lui,Jeewani Anupama Ginige,Bahman Javadi
発行日 2025-06-13 16:33:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC | Evaluating Sensitivity Parameters in Smartphone-Based Gaze Estimation: A Comparative Study of Appearance-Based and Infrared Eye Trackers はコメントを受け付けていません

SG2VID: Scene Graphs Enable Fine-Grained Control for Video Synthesis

要約

外科的シミュレーションは、初心者の外科医の訓練、学習曲線の加速、術中エラーの減少において極めて重要な役割を果たします。
ただし、従来のシミュレーションツールは、必要なフォトリアリズムと人間の解剖学の変動を提供するのに不十分です。
これに応じて、現在の方法は生成モデルベースのシミュレーターに向かってシフトしています。
しかし、これらのアプローチは主に、より複雑な条件付けを使用して正確な合成のために使用しながら、細粒の人間のコントロールの側面を無視することに焦点を当てています。
このギャップに対処するために、正確なビデオ統合と細粒のヒトコントロールの両方にシーングラフを活用する最初の拡散ベースのビデオモデルであるSG2VIDを導入します。
白内障と胆嚢摘出術の手術を特徴とする3つの公開データセットにわたってSG2VIDの機能を示します。
SG2VIDは、定性的および定量的に以前の方法を上回りますが、正確な合成も可能になり、ツールと解剖学のサイズと動き、新しいツールの入り口、および全体的なシーンレイアウトを正確に制御できます。
SG2VIDを生成的増強に使用する方法を定性的に動機付け、合成ビデオでトレーニングセットが拡張されたときに下流の位相検出タスクを改善する能力を実証する実験を提示します。
最後に、SG2VIDの人間の制御を維持する能力を紹介するために、シーングラフと対話して、主要でありながらまれな術中の不規則性を描いた新しいビデオサンプルを生成します。

要約(オリジナル)

Surgical simulation plays a pivotal role in training novice surgeons, accelerating their learning curve and reducing intra-operative errors. However, conventional simulation tools fall short in providing the necessary photorealism and the variability of human anatomy. In response, current methods are shifting towards generative model-based simulators. Yet, these approaches primarily focus on using increasingly complex conditioning for precise synthesis while neglecting the fine-grained human control aspect. To address this gap, we introduce SG2VID, the first diffusion-based video model that leverages Scene Graphs for both precise video synthesis and fine-grained human control. We demonstrate SG2VID’s capabilities across three public datasets featuring cataract and cholecystectomy surgery. While SG2VID outperforms previous methods both qualitatively and quantitatively, it also enables precise synthesis, providing accurate control over tool and anatomy’s size and movement, entrance of new tools, as well as the overall scene layout. We qualitatively motivate how SG2VID can be used for generative augmentation and present an experiment demonstrating its ability to improve a downstream phase detection task when the training set is extended with our synthetic videos. Finally, to showcase SG2VID’s ability to retain human control, we interact with the Scene Graphs to generate new video samples depicting major yet rare intra-operative irregularities.

arxiv情報

著者 Ssharvien Kumar Sivakumar,Yannik Frisch,Ghazal Ghazaei,Anirban Mukhopadhyay
発行日 2025-06-13 17:00:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SG2VID: Scene Graphs Enable Fine-Grained Control for Video Synthesis はコメントを受け付けていません

Visual Pre-Training on Unlabeled Images using Reinforcement Learning

要約

強化学習(RL)では、価値ベースのアルゴリズムは、各観察結果を状態に関連付け、そこから到達する可能性が高い報酬を学ぶことを学びます。
多くの自己監視された画像のトレーニング前の方法は、この定式化と類似していることがわかります。例えば、画像の作物を近くのビューの作物と関連付ける特徴を学習します。
このホワイトペーパーでは、この類推を完了し、RL問題としてWebクロールやビデオフレームなどのラベルのない画像データの事前トレーニングを直接キャストする方法を調査します。
エージェントがビューを変更したり、画像の増強を追加して画像を変換する動的システムで一般的な価値関数をトレーニングします。
この方法での学習は、作物の自己監視に似ていますが、報酬関数を通じて、キュレーションされた画像または存在したときに弱くラベル付けされたキャプションを使用して機能学習を形作るためのシンプルなレバーを提供します。
私たちの実験は、Epickitchensなどのビデオデータ、CoCoなどのシーンデータ、CC12MなどのWebクロールデータなど、野生で無効な画像をトレーニングする際に改善された表現を示しています。

要約(オリジナル)

In reinforcement learning (RL), value-based algorithms learn to associate each observation with the states and rewards that are likely to be reached from it. We observe that many self-supervised image pre-training methods bear similarity to this formulation: learning features that associate crops of images with those of nearby views, e.g., by taking a different crop or color augmentation. In this paper, we complete this analogy and explore a method that directly casts pre-training on unlabeled image data like web crawls and video frames as an RL problem. We train a general value function in a dynamical system where an agent transforms an image by changing the view or adding image augmentations. Learning in this way resembles crop-consistency self-supervision, but through the reward function, offers a simple lever to shape feature learning using curated images or weakly labeled captions when they exist. Our experiments demonstrate improved representations when training on unlabeled images in the wild, including video data like EpicKitchens, scene data like COCO, and web-crawl data like CC12M.

arxiv情報

著者 Dibya Ghosh,Sergey Levine
発行日 2025-06-13 17:25:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Visual Pre-Training on Unlabeled Images using Reinforcement Learning はコメントを受け付けていません

YOLO advances to its genesis: a decadal and comprehensive review of the You Only Look Once (YOLO) series

要約

このレビューでは、Yolov1から最近発表されたYolov12への1回のみ(Yolo)オブジェクト検出アルゴリズムの進行を体系的に調べます。
逆の年代順の分析を採用して、この研究では、Yolov12から始まり、Yolo11(またはYolov11)、Yolov11、Yolov9、Yolov8、およびその後のバージョンを介して進行するYoloアルゴリズムによって導入された進歩を調べます。
さらに、この研究では、ヨロナス、ヨロ-X、ヨロ-R、ダモヨーロ、ゴールドヨーロのヨロ建築の進歩から派生した代替バージョンをレビューします。
さらに、この研究では、自動運転車と交通安全、医療と医療イメージング、産業製造、監視とセキュリティ、農業の5つの重要なアプリケーション分野におけるヨーロモデルの変革的影響を強調しています。
その後のYoloバージョンの漸進的な技術の進歩を詳述することにより、このレビューはYoloの進化を記録し、以前の各バージョンの課題と制限について説明します。
この進化は、次のヨロの10年間にヨロをマルチモーダル、コンテキスト認識、および人工的な一般情報(AGI)システムと統合するための道を意味し、AI主導のアプリケーションにおける将来の開発に重要な意味を約束します。
Yolo Review、Yolo Advances、Yolov13、Yolov14、Yolov15、Yolov16、Yolov17、Yolov18、Yolov19、Yolov20、Yolo Review、Yoloオブジェクト検出

要約(オリジナル)

This review systematically examines the progression of the You Only Look Once (YOLO) object detection algorithms from YOLOv1 to the recently unveiled YOLOv12. Employing a reverse chronological analysis, this study examines the advancements introduced by YOLO algorithms, beginning with YOLOv12 and progressing through YOLO11 (or YOLOv11), YOLOv10, YOLOv9, YOLOv8, and subsequent versions to explore each version’s contributions to enhancing speed, detection accuracy, and computational efficiency in real-time object detection. Additionally, this study reviews the alternative versions derived from YOLO architectural advancements of YOLO-NAS, YOLO-X, YOLO-R, DAMO-YOLO, and Gold-YOLO. Moreover, the study highlights the transformative impact of YOLO models across five critical application areas: autonomous vehicles and traffic safety, healthcare and medical imaging, industrial manufacturing, surveillance and security, and agriculture. By detailing the incremental technological advancements in subsequent YOLO versions, this review chronicles the evolution of YOLO, and discusses the challenges and limitations in each of the earlier versions. The evolution signifies a path towards integrating YOLO with multimodal, context-aware, and Artificial General Intelligence (AGI) systems for the next YOLO decade, promising significant implications for future developments in AI-driven applications. YOLO Review, YOLO Advances, YOLOv13, YOLOv14, YOLOv15, YOLOv16, YOLOv17, YOLOv18, YOLOv19, YOLOv20, YOLO review, YOLO Object Detection

arxiv情報

著者 Ranjan Sapkota,Marco Flores Calero,Rizwan Qureshi,Chetan Badgujar,Upesh Nepal,Alwin Poulose,Peter Zeno,Uday Bhanu Prakash Vaddevolu,Sheheryar Khan,Maged Shoman,Hong Yan,Manoj Karkee
発行日 2025-06-13 17:27:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | YOLO advances to its genesis: a decadal and comprehensive review of the You Only Look Once (YOLO) series はコメントを受け付けていません

How Visual Representations Map to Language Feature Space in Multimodal LLMs

要約

効果的なマルチモーダル推論は、視覚表現と言語表現の整合に依存しますが、視覚言語モデル(VLM)がこのアライメントを達成するメカニズムは、よく理解されていないままです。
視覚命令チューニング中に線形アダプターをトレーニングすることによってのみ接続されて、冷凍大型言語モデル(LLM)と凍結視力変圧器(VIT)を意図的に維持する方法論的フレームワークを紹介します。
この設計は、私たちのアプローチの基本です。言語モデルを凍結することにより、視覚データに適応せずに元の言語表現を維持することを保証します。
その結果、線形アダプターは、言語モデルが微調整を通じて専門的な視覚的理解を開発できるようにするのではなく、視覚的特徴をLLMの既存の表現空間に直接マッピングする必要があります。
私たちの実験設計は、分析プローブとして、LLMの事前に訓練されたスパース自動エンコーダー(SAE)を使用することをユニークに可能にします。
これらのSAEは、変更されていない言語モデルと完全に整合したままであり、学習した言語機能表現のスナップショットとして機能します。
SAE再構成エラー、スパースパターン、および特徴SAEの説明を体系的に分析することにより、視覚的表現が言語特徴表現と徐々に整合し、中間層に収束する層ごとの進行を明らかにします。
これは、VIT出力と初期LLM層の間の根本的な不整合を示唆しており、現在のアダプターベースのアーキテクチャがクロスモーダル表現学習を最適に促進するかどうかについて重要な疑問を提起します。

要約(オリジナル)

Effective multimodal reasoning depends on the alignment of visual and linguistic representations, yet the mechanisms by which vision-language models (VLMs) achieve this alignment remain poorly understood. We introduce a methodological framework that deliberately maintains a frozen large language model (LLM) and a frozen vision transformer (ViT), connected solely by training a linear adapter during visual instruction tuning. This design is fundamental to our approach: by keeping the language model frozen, we ensure it maintains its original language representations without adaptation to visual data. Consequently, the linear adapter must map visual features directly into the LLM’s existing representational space rather than allowing the language model to develop specialized visual understanding through fine-tuning. Our experimental design uniquely enables the use of pre-trained sparse autoencoders (SAEs) of the LLM as analytical probes. These SAEs remain perfectly aligned with the unchanged language model and serve as a snapshot of the learned language feature-representations. Through systematic analysis of SAE reconstruction error, sparsity patterns, and feature SAE descriptions, we reveal the layer-wise progression through which visual representations gradually align with language feature representations, converging in middle-to-later layers. This suggests a fundamental misalignment between ViT outputs and early LLM layers, raising important questions about whether current adapter-based architectures optimally facilitate cross-modal representation learning.

arxiv情報

著者 Constantin Venhoff,Ashkan Khakzar,Sonia Joseph,Philip Torr,Neel Nanda
発行日 2025-06-13 17:34:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | How Visual Representations Map to Language Feature Space in Multimodal LLMs はコメントを受け付けていません

Simple Radiology VLLM Test-time Scaling with Thought Graph Traversal

要約

テスト時間スケーリングは、追加のトレーニングなしでビジョン言語大規模モデル(VLLMS)の推論パフォーマンスを改善する有望な方法を提供します。
この論文では、放射線学レポート生成にテスト時間スケーリングを適用するためのシンプルだが効果的なアプローチを探ります。
具体的には、医学的に一貫性のある順序で臓器固有の所見を通じてモデルを導くためにモデルを導く軽量思考グラフトラバーサル(TGT)フレームワークを導入します。
このフレームワークは、構造化された医療用プライエアをプロンプトに統合し、基礎となるモデルに変更を加えずに、より深くより論理的な分析を可能にします。
推論の深さをさらに強化するために、生成プロセスを動的に拡張することにより、テスト時にモデルの推論の深さを調整する推論予算強制戦略を適用します。
このシンプルでありながら強力な組み合わせにより、凍結放射線VLLMが自己修正し、より正確で一貫した胸部X線レポートを生成することができます。
私たちの方法は、標準ベンチマークのアプローチを促すベースラインを上回り、追跡可能な推論パスを通じてデータセットバイアスを明らかにします。
コードとプロンプトは、https://github.com/glerium/thought-graph-traversalで再現性のためにオープンソーリングされています。

要約(オリジナル)

Test-time scaling offers a promising way to improve the reasoning performance of vision-language large models (VLLMs) without additional training. In this paper, we explore a simple but effective approach for applying test-time scaling to radiology report generation. Specifically, we introduce a lightweight Thought Graph Traversal (TGT) framework that guides the model to reason through organ-specific findings in a medically coherent order. This framework integrates structured medical priors into the prompt, enabling deeper and more logical analysis with no changes to the underlying model. To further enhance reasoning depth, we apply a reasoning budget forcing strategy that adjusts the model’s inference depth at test time by dynamically extending its generation process. This simple yet powerful combination allows a frozen radiology VLLM to self-correct and generate more accurate, consistent chest X-ray reports. Our method outperforms baseline prompting approaches on standard benchmarks, and also reveals dataset biases through traceable reasoning paths. Code and prompts are open-sourced for reproducibility at https://github.com/glerium/Thought-Graph-Traversal.

arxiv情報

著者 Yue Yao,Zelin Wen,Yan Tong,Xinyu Tian,Xuqing Li,Xiao Ma,Dongliang Xu,Tom Gedeon
発行日 2025-06-13 17:46:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Simple Radiology VLLM Test-time Scaling with Thought Graph Traversal はコメントを受け付けていません

VGR: Visual Grounded Reasoning

要約

マルチモーダルの考え方(COT)の推論の分野では、既存のアプローチは主に言語バイアスに苦しみ、数学または科学のドメインに主に限定されている純粋な言語空間の推論に依存しています。
この狭い焦点は、画像の詳細の包括的な理解を必要とする複雑な視覚的推論タスクを処理する能力を制限します。
これらの制限に対処するために、このペーパーでは、微調整された視覚認識能力を強化した斬新なマルチモーダル大手言語モデル(MLLM)であるVGRを紹介します。
言語空間だけに質問や推論に答える従来のMLLMとは異なり、VGRは最初に問題を解決するのに役立つ関連領域を検出し、再生された画像領域に基づいて正確な回答を提供します。
これを達成するために、視力の接地と言語控除を混合した推論データを含むVgr -SFTと呼ばれる大規模なSFTデータセットを実施します。
VGRの推論パイプラインにより、モデルは視覚的な参照用の境界ボックスを選択でき、リプレイ段階が導入され、対応する領域を推論プロセスに統合してマルチモデルの理解を高めます。
LLAVA-Next-7Bベースラインの実験は、VGRがマルチモーダルベンチマークで優れたパフォーマンスを達成し、包括的な画像の詳細理解を必要とすることを示しています。
ベースラインと比較して、VGRは画像トークンカウントの30 \%のみを使用しながら、MMSTARで+4.1、AI2Dで+7.1、Chartqaで+12.9の改善を提供します。

要約(オリジナル)

In the field of multimodal chain-of-thought (CoT) reasoning, existing approaches predominantly rely on reasoning on pure language space, which inherently suffers from language bias and is largely confined to math or science domains. This narrow focus limits their ability to handle complex visual reasoning tasks that demand comprehensive understanding of image details. To address these limitations, this paper introduces VGR, a novel reasoning multimodal large language model (MLLM) with enhanced fine-grained visual perception capabilities. Unlike traditional MLLMs that answer the question or reasoning solely on the language space, our VGR first detects relevant regions that may help to solve problems, and then provides precise answers based on replayed image regions. To achieve this, we conduct a large-scale SFT dataset called VGR -SFT that contains reasoning data with mixed vision grounding and language deduction. The inference pipeline of VGR allows the model to choose bounding boxes for visual reference and a replay stage is introduced to integrates the corresponding regions into the reasoning process, enhancing multimodel comprehension. Experiments on the LLaVA-NeXT-7B baseline show that VGR achieves superior performance on multi-modal benchmarks requiring comprehensive image detail understanding. Compared to the baseline, VGR uses only 30\% of the image token count while delivering scores of +4.1 on MMStar, +7.1 on AI2D, and a +12.9 improvement on ChartQA.

arxiv情報

著者 Jiacong Wang,Zijiang Kang,Haochen Wang,Haiyong Jiang,Jiawen Li,Bohong Wu,Ya Wang,Jiao Ran,Xiao Liang,Chao Feng,Jun Xiao
発行日 2025-06-13 17:47:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | VGR: Visual Grounded Reasoning はコメントを受け付けていません