Simple Radiology VLLM Test-time Scaling with Thought Graph Traversal

要約

テスト時間スケーリングは、追加のトレーニングなしでビジョン言語大規模モデル(VLLMS)の推論パフォーマンスを改善する有望な方法を提供します。
この論文では、放射線学レポート生成にテスト時間スケーリングを適用するためのシンプルだが効果的なアプローチを探ります。
具体的には、医学的に一貫性のある順序で臓器固有の所見を通じてモデルを導くためにモデルを導く軽量思考グラフトラバーサル(TGT)フレームワークを導入します。
このフレームワークは、構造化された医療用プライエアをプロンプトに統合し、基礎となるモデルに変更を加えずに、より深くより論理的な分析を可能にします。
推論の深さをさらに強化するために、生成プロセスを動的に拡張することにより、テスト時にモデルの推論の深さを調整する推論予算強制戦略を適用します。
このシンプルでありながら強力な組み合わせにより、凍結放射線VLLMが自己修正し、より正確で一貫した胸部X線レポートを生成することができます。
私たちの方法は、標準ベンチマークのアプローチを促すベースラインを上回り、追跡可能な推論パスを通じてデータセットバイアスを明らかにします。
コードとプロンプトは、https://github.com/glerium/thought-graph-traversalで再現性のためにオープンソーリングされています。

要約(オリジナル)

Test-time scaling offers a promising way to improve the reasoning performance of vision-language large models (VLLMs) without additional training. In this paper, we explore a simple but effective approach for applying test-time scaling to radiology report generation. Specifically, we introduce a lightweight Thought Graph Traversal (TGT) framework that guides the model to reason through organ-specific findings in a medically coherent order. This framework integrates structured medical priors into the prompt, enabling deeper and more logical analysis with no changes to the underlying model. To further enhance reasoning depth, we apply a reasoning budget forcing strategy that adjusts the model’s inference depth at test time by dynamically extending its generation process. This simple yet powerful combination allows a frozen radiology VLLM to self-correct and generate more accurate, consistent chest X-ray reports. Our method outperforms baseline prompting approaches on standard benchmarks, and also reveals dataset biases through traceable reasoning paths. Code and prompts are open-sourced for reproducibility at https://github.com/glerium/Thought-Graph-Traversal.

arxiv情報

著者 Yue Yao,Zelin Wen,Yan Tong,Xinyu Tian,Xuqing Li,Xiao Ma,Dongliang Xu,Tom Gedeon
発行日 2025-06-13 17:46:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク