要約
実際のシナリオでは、モデルが未知のターゲット分布に適応または一般化する必要があるため、ドメインの適応と一般化を達成することは重要な課題をもたらします。
これらの機能を目に見えないマルチモーダル分布、つまりマルチモーダルドメインの適応と一般化に拡張することは、異なるモダリティの明確な特性のためにさらに困難です。
アクション認識からセマンティックセグメンテーションに至るまで、アプリケーションが長年にわたって大幅に進歩してきました。
さらに、Clipなどの大規模な事前訓練を受けたマルチモーダルファンデーションモデルの最近の出現により、これらのモデルを活用して適応と一般化のパフォーマンスを強化したり、ダウンストリームタスクに適応させたりしています。
この調査では、従来のアプローチから基礎モデルへの最近の進歩に関する最初の包括的なレビューを提供し、次のことをカバーしています。(1)マルチモーダルドメイン適応。
(2)マルチモーダルテスト時間適応。
(3)マルチモーダルドメイン一般化。
(4)マルチモーダルファンデーションモデルの助けを借りて、ドメインの適応と一般化。
(5)マルチモーダルファンデーションモデルの適応。
各トピックについて、問題を正式に定義し、既存の方法を徹底的に確認します。
さらに、関連するデータセットとアプリケーションを分析し、オープンな課題と潜在的な将来の研究の方向性を強調します。
https://github.com/donghao51/awesome-multimodal-adaptationで最新の文献を含むアクティブなリポジトリを維持しています。
要約(オリジナル)
In real-world scenarios, achieving domain adaptation and generalization poses significant challenges, as models must adapt to or generalize across unknown target distributions. Extending these capabilities to unseen multimodal distributions, i.e., multimodal domain adaptation and generalization, is even more challenging due to the distinct characteristics of different modalities. Significant progress has been made over the years, with applications ranging from action recognition to semantic segmentation. Besides, the recent advent of large-scale pre-trained multimodal foundation models, such as CLIP, has inspired works leveraging these models to enhance adaptation and generalization performances or adapting them to downstream tasks. This survey provides the first comprehensive review of recent advances from traditional approaches to foundation models, covering: (1) Multimodal domain adaptation; (2) Multimodal test-time adaptation; (3) Multimodal domain generalization; (4) Domain adaptation and generalization with the help of multimodal foundation models; and (5) Adaptation of multimodal foundation models. For each topic, we formally define the problem and thoroughly review existing methods. Additionally, we analyze relevant datasets and applications, highlighting open challenges and potential future research directions. We maintain an active repository that contains up-to-date literature at https://github.com/donghao51/Awesome-Multimodal-Adaptation.
arxiv情報
著者 | Hao Dong,Moru Liu,Kaiyang Zhou,Eleni Chatzi,Juho Kannala,Cyrill Stachniss,Olga Fink |
発行日 | 2025-01-30 18:59:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google