MarineGPT: Unlocking Secrets of Ocean to the Public

要約

ChatGPT/GPT-4 などの大規模言語モデル (LLM) は、AI アシスタントとしてのユーザー エクスペリエンスを促進する強力なツールであることが証明されています。
継続的な研究では、マルチモーダル大規模言語モデル (MLLM) を提案しており、共同意味空間 (ビジュアルテキスト空間など) の構築を通じて複数のモダリティ入力を感知する能力を LLM に与えています。
LLM と MLLM では大きな成功が収められましたが、ドメイン固有の知識と専門知識を必要とするドメイン固有のアプリケーションにおける LLM と MLLM の探索は、特に \textbf{海洋ドメイン} ではあまり行われていません。
汎用 MLLM とは異なり、海洋固有の MLLM は、より多くの \textbf{敏感な}、\textbf{有益な}、および \textbf{科学的な}応答を生成する必要があります。
この研究では、すぐに利用できる大量の汎用トレーニング データに基づいて最適化された既存の MLLM が、ドメイン固有の意図を理解し、有益で満足のいく応答を生成する最低限の能力を示していることを実証します。
これらの問題に対処するために、私たちは \textbf{MarineGPT} を提案します。これは海洋ドメイン向けに特別に設計された初のビジョン言語モデルであり、海洋の秘密を一般に公開します。
私たちは、500 万を超える海洋画像とテキストのペアを含む \textbf{Marine-5M} データセットを提示して、ドメイン固有の海洋知識をモデルに注入し、海洋視覚と言語の整合性を向上させます。
当社の MarineGPT は、海洋理解の境界を一般大衆に押し広げるだけでなく、汎用アシスタントを下流のドメイン固有の専門家に適応させるための標準プロトコルも提供します。
私たちは、学術界と産業界の両方で将来の研究に向けて貴重なデータと事前トレーニングされたモデルを設定しながら、幅広い海洋アプリケーションへの道を切り開きます。

要約(オリジナル)

Large language models (LLMs), such as ChatGPT/GPT-4, have proven to be powerful tools in promoting the user experience as an AI assistant. The continuous works are proposing multi-modal large language models (MLLM), empowering LLMs with the ability to sense multiple modality inputs through constructing a joint semantic space (e.g. visual-text space). Though significant success was achieved in LLMs and MLLMs, exploring LLMs and MLLMs in domain-specific applications that required domain-specific knowledge and expertise has been less conducted, especially for \textbf{marine domain}. Different from general-purpose MLLMs, the marine-specific MLLM is required to yield much more \textbf{sensitive}, \textbf{informative}, and \textbf{scientific} responses. In this work, we demonstrate that the existing MLLMs optimized on huge amounts of readily available general-purpose training data show a minimal ability to understand domain-specific intents and then generate informative and satisfactory responses. To address these issues, we propose \textbf{MarineGPT}, the first vision-language model specially designed for the marine domain, unlocking the secrets of the ocean to the public. We present our \textbf{Marine-5M} dataset with more than 5 million marine image-text pairs to inject domain-specific marine knowledge into our model and achieve better marine vision and language alignment. Our MarineGPT not only pushes the boundaries of marine understanding to the general public but also offers a standard protocol for adapting a general-purpose assistant to downstream domain-specific experts. We pave the way for a wide range of marine applications while setting valuable data and pre-trained models for future research in both academic and industrial communities.

arxiv情報

著者 Ziqiang Zheng,Jipeng Zhang,Tuan-Anh Vu,Shizhe Diao,Yue Him Wong Tim,Sai-Kit Yeung
発行日 2023-10-20 15:45:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク