要約
Large Vision-Language Model (LVLM) は、ビジュアル データとテキスト データを処理および統合する優れた能力で注目を集めています。
LVLM の人気にもかかわらず、正確できめの細かいテキスト記述を生成する LVLM の能力は十分に研究されていません。
この研究では、\textit{区別性} と \textit{忠実度} に焦点を当て、Open-Flamingo、IDEFICS、MiniGPT-4 などのモデルが類似のオブジェクトをどのように区別し、視覚的特徴を正確に記述することができるかを評価することで、このギャップに対処しています。
私たちは、テキスト検索拡張分類 (TRAC) フレームワークを提案しました。これにより、その生成機能を活用することで、きめの細かい視覚的記述の生成をさらに深く分析できるようになります。
この研究は、LVLM の生成品質に関する貴重な洞察を提供し、マルチモーダル言語モデルの理解を深めます。
特に、MiniGPT-4 は、きめの細かい記述を生成する優れた能力で際立っており、この点で他の 2 つのモデルよりも優れています。
コードは \url{https://anonymous.4open.science/r/Explore_FGVDs-E277} で提供されます。
要約(オリジナル)
Large Vision-Language Models (LVLMs) are gaining traction for their remarkable ability to process and integrate visual and textual data. Despite their popularity, the capacity of LVLMs to generate precise, fine-grained textual descriptions has not been fully explored. This study addresses this gap by focusing on \textit{distinctiveness} and \textit{fidelity}, assessing how models like Open-Flamingo, IDEFICS, and MiniGPT-4 can distinguish between similar objects and accurately describe visual features. We proposed the Textual Retrieval-Augmented Classification (TRAC) framework, which, by leveraging its generative capabilities, allows us to delve deeper into analyzing fine-grained visual description generation. This research provides valuable insights into the generation quality of LVLMs, enhancing the understanding of multimodal language models. Notably, MiniGPT-4 stands out for its better ability to generate fine-grained descriptions, outperforming the other two models in this aspect. The code is provided at \url{https://anonymous.4open.science/r/Explore_FGVDs-E277}.
arxiv情報
著者 | Yuhang Huang,Zihan Wu,Chongyang Gao,Jiawei Peng,Xu Yang |
発行日 | 2024-04-26 16:59:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google