Exploring Boundary of GPT-4V on Marine Analysis: A Preliminary Case Study

要約

大規模言語モデル(LLM)は、汎用的なアシスタントとして様々なクエリに答える強力な能力を実証してきた。連続的なマルチモーダル大規模言語モデル(MLLM)は、視覚信号を知覚する能力をLLMに与えている。GPT-4 (Generative Pre-trained Transformers)の登場は、研究コミュニティに大きな関心をもたらした。GPT-4V(ison)は、新しい人工知能世代の焦点として、学界と産業界の両方で大きな力を発揮した。GPT-4Vは大きな成功を収めたが、MLLMの探索は、ドメイン固有の知識や専門知識を必要とするドメイン固有の解析(例えば、海洋解析)においては、あまり注目されてこなかった。本研究では、GPT-4Vを海洋解析に活用するための予備的かつ包括的なケーススタディを実施する。本報告では、既存のGPT-4Vの系統的な評価を行い、海洋調査におけるGPT-4Vの性能を評価するとともに、今後のMLLMの開発における新たな基準を設定する。GPT-4Vの実験結果は、GPT-4Vによって生成された応答は、海洋専門職の領域固有の要求を満たすにはまだ程遠いことを示している。本研究で使用したすべての画像とプロンプトは、https://github.com/hkust-vgd/Marine_GPT-4V_Eval で利用可能である。

要約(オリジナル)

Large language models (LLMs) have demonstrated a powerful ability to answer various queries as a general-purpose assistant. The continuous multi-modal large language models (MLLM) empower LLMs with the ability to perceive visual signals. The launch of GPT-4 (Generative Pre-trained Transformers) has generated significant interest in the research communities. GPT-4V(ison) has demonstrated significant power in both academia and industry fields, as a focal point in a new artificial intelligence generation. Though significant success was achieved by GPT-4V, exploring MLLMs in domain-specific analysis (e.g., marine analysis) that required domain-specific knowledge and expertise has gained less attention. In this study, we carry out the preliminary and comprehensive case study of utilizing GPT-4V for marine analysis. This report conducts a systematic evaluation of existing GPT-4V, assessing the performance of GPT-4V on marine research and also setting a new standard for future developments in MLLMs. The experimental results of GPT-4V show that the responses generated by GPT-4V are still far away from satisfying the domain-specific requirements of the marine professions. All images and prompts used in this study will be available at https://github.com/hkust-vgd/Marine_GPT-4V_Eval

arxiv情報

著者 Ziqiang Zheng,Yiwei Chen,Jipeng Zhang,Tuan-Anh Vu,Huimin Zeng,Yue Him Wong Tim,Sai-Kit Yeung
発行日 2024-01-04 08:53:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV パーマリンク