要約
Large Vision-Language Model (LVLM) は、マルチモーダル タスクにおいて優れた機能を実証していますが、そのパフォーマンスは外部知識統合の欠如によって制限されることが多く、視覚的な質問応答や推論などの知識集約型タスクを処理する能力が制限されます。
この課題に対処するために、我々は、事前トレーニングと微調整中に構造化知識と非構造化知識を LVLM に動的に組み込む新しい方法である大規模視覚言語モデル向け適応型知識誘導事前トレーニング (AKGP-LVLM) を提案します。
私たちのアプローチでは、外部知識を表現するための知識エンコーダー、タスク関連情報を選択するための検索メカニズム、およびマルチモーダル表現と知識表現を効果的に調整するための動的アダプターを採用しています。
4 つのベンチマーク データセットでメソッドを評価し、最先端のモデルと比較して大幅なパフォーマンスの向上を実証しました。
さらに、人による評価により、モデルの出力の優れた正確性と関連性が強調されます。
広範な分析により、AKGP-LVLM の堅牢性、効率性、スケーラビリティが確認され、現実世界の知識集約型タスクにとって魅力的なソリューションとなっています。
要約(オリジナル)
Large Vision-Language Models (LVLMs) have demonstrated impressive capabilities in multimodal tasks, but their performance is often constrained by the lack of external knowledge integration, limiting their ability to handle knowledge-intensive tasks such as visual question answering and reasoning. To address this challenge, we propose a novel method, Adaptive Knowledge-Guided Pretraining for Large Vision-Language Models (AKGP-LVLM), which dynamically incorporates structured and unstructured knowledge into LVLMs during pretraining and fine-tuning. Our approach employs a knowledge encoder to represent external knowledge, a retrieval mechanism to select task-relevant information, and a dynamic adaptor to align multimodal and knowledge representations effectively. We evaluate our method on four benchmark datasets, demonstrating significant performance improvements over state-of-the-art models. Furthermore, human evaluations highlight the superior correctness and relevance of our model’s outputs. Extensive analyses confirm the robustness, efficiency, and scalability of AKGP-LVLM, making it a compelling solution for real-world knowledge-intensive tasks.
arxiv情報
著者 | Julian Perry,Surasakdi Siripong,Thanakorn Phonchai |
発行日 | 2025-01-15 05:45:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google