MoColl: Agent-Based Specific and General Model Collaboration for Image Captioning

要約

画像のキャプション付けは、コンピュータビジョンと自然言語処理の交差点に位置する重要なタスクであり、様々な領域で幅広く応用されている。診断レポート生成のような複雑なタスクでは、ディープラーニングモデルは、ドメイン固有の画像キャプションデータセットだけでなく、コンテキスト精度を提供するために関連する一般的な知識を組み込む必要がある。既存のアプローチは固有の限界を示している:特化されたモデルは、ドメイン固有の詳細をキャプチャすることに優れているが、汎化が不足している一方、大規模言語モデル(LLM)上に構築された視覚言語モデル(VLM)は、一般的な知識を活用するが、ドメイン固有の適応に苦労している。これらの限界に対処するために、本論文では、領域固有の知識と一般的な知識を効果的に統合するように設計された、新規なエージェント強化モデル連携フレームワークを提案する。具体的には、我々のアプローチは、複雑な画像キャプションタスクを一連の相互に関連した質問と回答のサブタスクに分解することである。学習可能な視覚的質問応答(VQA)モデルは、ドメインに特化した視覚分析に特化したツールとして採用され、画像コンテンツに基づいてタスクに特化した質問に答える。同時に、一般的な知識を持つLLMベースのエージェントがこれらの質問を定式化し、結果として得られる質問と回答のペアを首尾一貫したキャプションに合成する。エージェントは、VQAモデルを活用する役割を果たすだけでなく、ドメイン固有の能力を向上させるために、さらに訓練を指導する。放射線医学のレポート生成に関する実験結果は、提案されたフレームワークの有効性を検証し、生成されたレポートの品質が大幅に改善されたことを示す。

要約(オリジナル)

Image captioning is a critical task at the intersection of computer vision and natural language processing, with wide-ranging applications across various domains. For complex tasks such as diagnostic report generation, deep learning models require not only domain-specific image-caption datasets but also the incorporation of relevant general knowledge to provide contextual accuracy. Existing approaches exhibit inherent limitations: specialized models excel in capturing domain-specific details but lack generalization, while vision-language models (VLMs) built on large language models (LLMs) leverage general knowledge but struggle with domain-specific adaptation. To address these limitations, this paper proposes a novel agent-enhanced model collaboration framework, which we called \textbf{MoColl}, designed to effectively integrate domain-specific and general knowledge. Specifically, our approach is to decompose complex image captioning tasks into a series of interconnected question-answer subtasks. A trainable visual question answering (VQA) model is employed as a specialized tool to focus on domain-specific visual analysis, answering task-specific questions based on image content. Concurrently, an LLM-based agent with general knowledge formulates these questions and synthesizes the resulting question-answer pairs into coherent captions. Beyond its role in leveraging the VQA model, the agent further guides its training to enhance its domain-specific capabilities. Experimental results on radiology report generation validate the effectiveness of the proposed framework, demonstrating significant improvements in the quality of generated reports.

arxiv情報

著者 Pu Yang,Bin Dong
発行日 2025-01-03 14:38:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク