MoColl: Agent-Based Specific and General Model Collaboration for Image Captioning

要約

画像キャプションは、コンピュータービジョンと自然言語処理の交差点における重要なタスクであり、さまざまなドメインで広範囲にわたるアプリケーションがあります。
診断レポート生成などの複雑なタスクの場合、ディープラーニングモデルには、ドメイン固有の画像キャプションデータセットだけでなく、関連する一般的な知識がコンテキスト精度を提供するための組み込みも必要です。
既存のアプローチは固有の制限を示します。専門的なモデルは、ドメイン固有の詳細をキャプチャすることに優れていますが、一般化がありません。一方、大きな言語モデル(LLM)に基づいて構築されたビジョン言語モデル(VLM)は一般的な知識を活用しますが、ドメイン固有の適応と闘っています。
これらの制限に対処するために、このペーパーでは、ドメイン固有の一般的な知識を効果的に統合するように設計されたMoCollと呼ばれる新しいエージェント強化モデルコラボレーションフレームワークを提案します。
具体的には、私たちのアプローチは、複雑な画像キャプションタスクを相互に接続された一連の質問サブタスクに分解することです。
訓練可能な視覚的質問回答(VQA)モデルは、画像コンテンツに基づいてタスク固有の質問に答えるドメイン固有の視覚分析に焦点を当てる専門的なツールとして採用されています。
同時に、一般的な知識を持つLLMベースのエージェントはこれらの質問を定式化し、結果の質問回答ペアをコヒーレントキャプションに合成します。
VQAモデルの活用における役割を超えて、エージェントはさらにトレーニングをガイドして、ドメイン固有の機能を強化します。
放射線学レポート生成に関する実験結果は、提案されたフレームワークの有効性を検証し、生成されたレポートの品質の大幅な改善を示します。

要約(オリジナル)

Image captioning is a critical task at the intersection of computer vision and natural language processing, with wide-ranging applications across various domains. For complex tasks such as diagnostic report generation, deep learning models require not only domain-specific image-caption datasets but also the incorporation of relevant general knowledge to provide contextual accuracy. Existing approaches exhibit inherent limitations: specialized models excel in capturing domain-specific details but lack generalization, while vision-language models (VLMs) built on large language models (LLMs) leverage general knowledge but struggle with domain-specific adaptation. To address these limitations, this paper proposes a novel agent-enhanced model collaboration framework, which we call MoColl, designed to effectively integrate domain-specific and general knowledge. Specifically, our approach is to decompose complex image captioning tasks into a series of interconnected question-answer subtasks. A trainable visual question answering (VQA) model is employed as a specialized tool to focus on domain-specific visual analysis, answering task-specific questions based on image content. Concurrently, an LLM-based agent with general knowledge formulates these questions and synthesizes the resulting question-answer pairs into coherent captions. Beyond its role in leveraging the VQA model, the agent further guides its training to enhance its domain-specific capabilities. Experimental results on radiology report generation validate the effectiveness of the proposed framework, demonstrating significant improvements in the quality of generated reports.

arxiv情報

著者 Pu Yang,Bin Dong
発行日 2025-01-27 16:34:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク