Effectiveness Assessment of Recent Large Vision-Language Models

要約

大規模ビジョン言語モデル (LVLM) の出現は、汎用人工知能の追求に向けた注目すべき進歩を表しています。
ただし、特殊なタスクと一般的なタスクの両方における有効性の程度については、さらなる調査が必要です。
この記事では、これらの革新的な方法論を包括的に理解することを目的として、特殊なタスクと一般的なタスクのそれぞれにおける人気のある LVLM の能力を評価するよう努めます。
特殊なタスクでの有効性を評価するために、自然、医療、産業という 3 つの異なるシナリオで構成される包括的なテストベッドを調整し、6 つの困難なタスクを網羅します。
これらのタスクには、産業上の異常検出と並行して、顕著な物体、偽装された物体、透明な物体の検出、ポリープや皮膚病変の検出が含まれます。
私たちは、最近の 3 つのオープンソース LVLM (MiniGPT-v2、LLaVA-1.5、Shikra) のパフォーマンスを視覚認識と位置特定の分野で検証します。
さらに、GPT-4V と併用して前述のモデルを利用して実証調査を行い、物体のカウント、不条理な質問への応答、アフォーダンス推論、属性認識、空間関係推論などの一般的なタスクにおけるマルチモーダルな理解能力を評価します。
私たちの調査により、これらのモデルは特殊なタスクだけでなく一般的なタスクにおいても限られた習熟度を示していることが明らかになりました。
私たちはこの不十分さをさらに深く掘り下げ、特殊なタスクにおける認知の制限、物体の幻覚、テキストと画像の干渉、複雑な問題におけるロバスト性の低下など、いくつかの潜在的な要因を示唆しています。
この研究が LVLM の将来の開発に貴重な洞察を提供し、一般的なアプリケーションと特殊なアプリケーションの両方に対処する能力を強化することを願っています。

要約(オリジナル)

The advent of large vision-language models (LVLMs) represents a noteworthy advancement towards the pursuit of artificial general intelligence. However, the extent of their efficacy across both specialized and general tasks warrants further investigation. This article endeavors to evaluate the competency of popular LVLMs in specialized and general tasks, respectively, aiming to offer a comprehensive comprehension of these innovative methodologies. To gauge their efficacy in specialized tasks, we tailor a comprehensive testbed comprising three distinct scenarios: natural, healthcare, and industrial, encompassing six challenging tasks. These tasks include salient, camouflaged, and transparent object detection, as well as polyp and skin lesion detection, alongside industrial anomaly detection. We examine the performance of three recent open-source LVLMs — MiniGPT-v2, LLaVA-1.5, and Shikra — in the realm of visual recognition and localization. Moreover, we conduct empirical investigations utilizing the aforementioned models alongside GPT-4V, assessing their multi-modal understanding capacities in general tasks such as object counting, absurd question answering, affordance reasoning, attribute recognition, and spatial relation reasoning. Our investigations reveal that these models demonstrate limited proficiency not only in specialized tasks but also in general tasks. We delve deeper into this inadequacy and suggest several potential factors, including limited cognition in specialized tasks, object hallucination, text-to-image interference, and decreased robustness in complex problems. We hope this study would provide valuable insights for the future development of LVLMs, augmenting their power in coping with both general and specialized applications.

arxiv情報

著者 Yao Jiang,Xinyu Yan,Ge-Peng Ji,Keren Fu,Meijun Sun,Huan Xiong,Deng-Ping Fan,Fahad Shahbaz Khan
発行日 2024-03-18 07:21:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク