MoColl: Agent-Based Specific and General Model Collaboration for Image Captioning

要約

画像キャプションは、コンピューター ビジョンと自然言語処理が交わる重要なタスクであり、さまざまなドメインにわたる広範なアプリケーションに使用されます。
診断レポートの生成などの複雑なタスクの場合、深層学習モデルには、ドメイン固有の画像キャプション データセットだけでなく、コンテキストの正確性を提供するために関連する一般知識の組み込みも必要です。
既存のアプローチには固有の限界があります。特殊なモデルはドメイン固有の詳細を捉えることに優れていますが、一般化が欠けています。一方、大規模言語モデル (LLM) 上に構築されたビジョン言語モデル (VLM) は一般的な知識を活用しますが、ドメイン固有の適応に苦労します。
これらの制限に対処するために、この論文では、ドメイン固有の知識と一般的な知識を効果的に統合するように設計された、MoColl と呼ばれる新しいエージェント強化モデル コラボレーション フレームワークを提案します。
具体的には、私たちのアプローチは、複雑な画像キャプションタスクを、相互に接続された一連の質問と回答のサブタスクに分解することです。
トレーニング可能なビジュアル質問応答 (VQA) モデルは、ドメイン固有のビジュアル分析に焦点を当て、画像コンテンツに基づいてタスク固有の質問に答えるための特殊なツールとして採用されています。
同時に、一般的な知識を持つ LLM ベースのエージェントがこれらの質問を定式化し、結果として得られる質問と回答のペアを一貫したキャプションに合成します。
エージェントは、VQA モデルを活用する役割を超えて、ドメイン固有の機能を強化するためのトレーニングをさらに指導します。
放射線医学レポート生成に関する実験結果は、提案されたフレームワークの有効性を検証し、生成されるレポートの品質が大幅に向上することを示しています。

要約(オリジナル)

Image captioning is a critical task at the intersection of computer vision and natural language processing, with wide-ranging applications across various domains. For complex tasks such as diagnostic report generation, deep learning models require not only domain-specific image-caption datasets but also the incorporation of relevant general knowledge to provide contextual accuracy. Existing approaches exhibit inherent limitations: specialized models excel in capturing domain-specific details but lack generalization, while vision-language models (VLMs) built on large language models (LLMs) leverage general knowledge but struggle with domain-specific adaptation. To address these limitations, this paper proposes a novel agent-enhanced model collaboration framework, which we call MoColl, designed to effectively integrate domain-specific and general knowledge. Specifically, our approach is to decompose complex image captioning tasks into a series of interconnected question-answer subtasks. A trainable visual question answering (VQA) model is employed as a specialized tool to focus on domain-specific visual analysis, answering task-specific questions based on image content. Concurrently, an LLM-based agent with general knowledge formulates these questions and synthesizes the resulting question-answer pairs into coherent captions. Beyond its role in leveraging the VQA model, the agent further guides its training to enhance its domain-specific capabilities. Experimental results on radiology report generation validate the effectiveness of the proposed framework, demonstrating significant improvements in the quality of generated reports.

arxiv情報

著者 Pu Yang,Bin Dong
発行日 2025-01-10 10:08:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク