Promoting AI Equity in Science: Generalized Domain Prompt Learning for Accessible VLM Research

要約

大規模視覚言語モデル (VLM) は、自然視覚タスクにおいて優れたパフォーマンスを実証しており、領域を超えた研究者が領域固有の VLM を探索する動機になっています。
ただし、強力なドメイン固有の VLM の構築には、大量の注釈付きデータ、大量の電力エネルギー、および主に産業界がアクセスできるコンピューティング リソースが必要ですが、学術界での VLM 研究の妨げとなっています。
この課題に対処し、持続可能で公平な VLM 研究を促進するために、私たちは一般化ドメイン プロンプト学習 (GDPL) フレームワークを提案します。
GDPL は、大規模なデータやリソースを必要とせずに、VLM の堅牢な認識機能を自然視覚から特殊な領域に移行することを容易にします。
GDPL は、小規模なドメイン固有の基盤モデルと最小限のプロンプト サンプルを活用することで、クォータニオン ネットワークを通じて言語分野にドメイン知識を与え、ドメイン固有の視覚機能と自然な視覚ベースのコンテキスト埋め込みの間のクロスモーダルな関係を明らかにします。
同時に、GDPL は、よく一致したビジョンと言語の関係に基づいて、生成されたビジョン プロンプト機能の階層的な伝播を通じて、ビジョン ブランチを特定のドメインに導きます。
さらに、VLM のドメイン適応の可能性を最大限に活用するために、新しい低ランク適応アプローチを導入します。
リモート センシング、医療画像、地質学、合成開口レーダー、流体力学などのさまざまな分野にわたる広範な実験により、GDPL の有効性が検証され、迅速な学習パラダイムで最先端のドメイン認識パフォーマンスを達成する能力が実証されています。
私たちのフレームワークは、学術界と産業界の間の障壁を超え、持続可能で包括的な VLM 研究への道を切り開きます。

要約(オリジナル)

Large-scale Vision-Language Models (VLMs) have demonstrated exceptional performance in natural vision tasks, motivating researchers across domains to explore domain-specific VLMs. However, the construction of powerful domain-specific VLMs demands vast amounts of annotated data, substantial electrical energy, and computing resources, primarily accessible to industry, yet hindering VLM research in academia. To address this challenge and foster sustainable and equitable VLM research, we present the Generalized Domain Prompt Learning (GDPL) framework. GDPL facilitates the transfer of VLMs’ robust recognition capabilities from natural vision to specialized domains, without the need for extensive data or resources. By leveraging small-scale domain-specific foundation models and minimal prompt samples, GDPL empowers the language branch with domain knowledge through quaternion networks, uncovering cross-modal relationships between domain-specific vision features and natural vision-based contextual embeddings. Simultaneously, GDPL guides the vision branch into specific domains through hierarchical propagation of generated vision prompt features, grounded in well-matched vision-language relations. Furthermore, to fully harness the domain adaptation potential of VLMs, we introduce a novel low-rank adaptation approach. Extensive experiments across diverse domains like remote sensing, medical imaging, geology, Synthetic Aperture Radar, and fluid dynamics, validate the efficacy of GDPL, demonstrating its ability to achieve state-of-the-art domain recognition performance in a prompt learning paradigm. Our framework paves the way for sustainable and inclusive VLM research, transcending the barriers between academia and industry.

arxiv情報

著者 Qinglong Cao,Yuntian Chen,Lu Lu,Hao Sun,Zhenzhong Zeng,Xiaokang Yang,Dongxiao Zhang
発行日 2024-05-14 14:51:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, stat.AP パーマリンク