Cyclic Vision-Language Manipulator: Towards Reliable and Fine-Grained Image Interpretation for Automated Report Generation

要約

自動化されたレポート生成の大幅な進歩にもかかわらず、テキストの解釈可能性の不透明度は、生成されたコンテンツの信頼性に疑問を投げかけ続けています。
このペーパーでは、レポート生成モデルの出力に影響を与えるX線画像の特定の画像機能を特定するための新しいアプローチを紹介します。
具体的には、元のX線から操作されたX線と指定されたレポートジェネレーターからそのレポートを生成するモジュールである環状視覚系マニピュレーターCVLMを提案します。
CVLMの本質は、レポートジェネレーターのサイクリング操作X線がX線を生成した変更レポートを生成し、X線生成のレポートに事前に注入された変更に沿った変更されたレポートを生成し、「環状操作」という用語を達成することです。
このプロセスにより、オリジナルと操作されたX線を直接比較することができ、レポートの変更を促進する重要な画像機能を明確にし、モデルユーザーが生成されたテキストの信頼性を評価できるようにします。
経験的評価は、CVLMが既存の説明方法と比較してより正確で信頼できる機能を特定し、AI生成レポートの透明性と適用性を大幅に向上させることを示しています。

要約(オリジナル)

Despite significant advancements in automated report generation, the opaqueness of text interpretability continues to cast doubt on the reliability of the content produced. This paper introduces a novel approach to identify specific image features in X-ray images that influence the outputs of report generation models. Specifically, we propose Cyclic Vision-Language Manipulator CVLM, a module to generate a manipulated X-ray from an original X-ray and its report from a designated report generator. The essence of CVLM is that cycling manipulated X-rays to the report generator produces altered reports aligned with the alterations pre-injected into the reports for X-ray generation, achieving the term ‘cyclic manipulation’. This process allows direct comparison between original and manipulated X-rays, clarifying the critical image features driving changes in reports and enabling model users to assess the reliability of the generated texts. Empirical evaluations demonstrate that CVLM can identify more precise and reliable features compared to existing explanation methods, significantly enhancing the transparency and applicability of AI-generated reports.

arxiv情報

著者 Yingying Fang,Zihao Jin,Shaojie Guo,Jinda Liu,Zhiling Yue,Yijian Gao,Junzhi Ning,Zhi Li,Simon Walsh,Guang Yang
発行日 2025-05-07 01:51:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク