How Well Does GPT-4V(ision) Adapt to Distribution Shifts? A Preliminary Investigation

要約

機械学習では、特に気候モデリング、生物医学、自動運転などの分野では、分布の変化(展開条件がトレーニング シナリオから異なる場合)に対する一般化が重要です。
広範な事前トレーニングとタスクの多用途性を特徴とする基礎モデルの出現により、分布の変化に対する適応性への関心が高まっています。
GPT-4V(ision) は、公的にアクセス可能な最も先進的なマルチモーダル基盤モデルとして機能し、異常検出、ビデオ理解、画像生成、医療診断など、さまざまなドメインにわたる広範なアプリケーションに使用されます。
ただし、データ分散に対するその堅牢性は依然として十分に解明されていません。
このギャップに対処するために、この研究では、CLIP や LLaVA などの著名なモデルと比較して、動的環境における GPT-4V の適応性と汎用化機能を厳密に評価しています。
自然、医療、分子ドメインにわたる 13 の多様なデータセットにわたる GPT-4V のゼロショット一般化を詳しく調べます。
私たちはさらに、制御されたデータの摂動に対する適応性を調査し、その適応を強化するツールとしてのコンテキスト内学習の有効性を調べます。
私たちの調査結果は、分布の変化における GPT-4V の機能の限界を明らかにし、さまざまなシナリオにわたる GPT-4V の強みと限界を明らかにします。
重要なのは、この調査は、AI 基盤モデルが分布の変化にどのように一般化するかについての理解に貢献し、その適応性と堅牢性について極めて重要な洞察を提供することです。
コードは https://github.com/jameszhou-gl/gpt-4v-distribution-shift で公開されています。

要約(オリジナル)

In machine learning, generalization against distribution shifts — where deployment conditions diverge from the training scenarios — is crucial, particularly in fields like climate modeling, biomedicine, and autonomous driving. The emergence of foundation models, distinguished by their extensive pretraining and task versatility, has led to an increased interest in their adaptability to distribution shifts. GPT-4V(ision) acts as the most advanced publicly accessible multimodal foundation model, with extensive applications across various domains, including anomaly detection, video understanding, image generation, and medical diagnosis. However, its robustness against data distributions remains largely underexplored. Addressing this gap, this study rigorously evaluates GPT-4V’s adaptability and generalization capabilities in dynamic environments, benchmarking against prominent models like CLIP and LLaVA. We delve into GPT-4V’s zero-shot generalization across 13 diverse datasets spanning natural, medical, and molecular domains. We further investigate its adaptability to controlled data perturbations and examine the efficacy of in-context learning as a tool to enhance its adaptation. Our findings delineate GPT-4V’s capability boundaries in distribution shifts, shedding light on its strengths and limitations across various scenarios. Importantly, this investigation contributes to our understanding of how AI foundation models generalize to distribution shifts, offering pivotal insights into their adaptability and robustness. Code is publicly available at https://github.com/jameszhou-gl/gpt-4v-distribution-shift.

arxiv情報

著者 Zhongyi Han,Guanglin Zhou,Rundong He,Jindong Wang,Tailin Wu,Yilong Yin,Salman Khan,Lina Yao,Tongliang Liu,Kun Zhang
発行日 2023-12-13 13:00:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク