要約
従来の空間的モデルは一般に、ドメイン固有の設計要件により、多様なタスク全体の一般化可能性とスケーラビリティを制限するタスク固有のアーキテクチャに依存しています。
このホワイトペーパーでは、2段階の前提条件で採用パラダイムを備えた最近の基礎モデルの進歩に触発された、空間的モデリングの統一された変圧器ベースのフレームワークである\ textBf {UnistD}を紹介します。
具体的には、我々の研究は、2Dビジョンとビジョンテキストデータセットのタスクに依存しない事前供給が、時空間学習のための一般化可能なモデル基盤を構築し、その後、タスク固有の適応性を高めるための空間的データセットに関する特殊な共同トレーニングが続くことを示しています。
ドメイン全体の学習機能を改善するために、私たちのフレームワークは、分数補間を使用して個別の変数を緩和して連続空間で最適化できるランクに適応する専門家の適応を採用しています。
さらに、時間的ダイナミクスを明示的に組み込むための時間モジュールを導入します。
4つの分野にわたる10のタスクをカバーする大規模なデータセットでアプローチを評価し、統一された空間モデルがスケーラブルなクロスタスク学習を実現し、1つのモデル内で最大10のタスクを同時にサポートしながら、マルチドメインアプリケーションのトレーニングコストを削減できることを実証します。
コードはhttps://github.com/1hunters/unistdで入手できます。
要約(オリジナル)
Traditional spatiotemporal models generally rely on task-specific architectures, which limit their generalizability and scalability across diverse tasks due to domain-specific design requirements. In this paper, we introduce \textbf{UniSTD}, a unified Transformer-based framework for spatiotemporal modeling, which is inspired by advances in recent foundation models with the two-stage pretraining-then-adaption paradigm. Specifically, our work demonstrates that task-agnostic pretraining on 2D vision and vision-text datasets can build a generalizable model foundation for spatiotemporal learning, followed by specialized joint training on spatiotemporal datasets to enhance task-specific adaptability. To improve the learning capabilities across domains, our framework employs a rank-adaptive mixture-of-expert adaptation by using fractional interpolation to relax the discrete variables so that can be optimized in the continuous space. Additionally, we introduce a temporal module to incorporate temporal dynamics explicitly. We evaluate our approach on a large-scale dataset covering 10 tasks across 4 disciplines, demonstrating that a unified spatiotemporal model can achieve scalable, cross-task learning and support up to 10 tasks simultaneously within one model while reducing training costs in multi-domain applications. Code will be available at https://github.com/1hunters/UniSTD.
arxiv情報
著者 | Chen Tang,Xinzhu Ma,Encheng Su,Xiufeng Song,Xiaohong Liu,Wei-Hong Li,Lei Bai,Wanli Ouyang,Xiangyu Yue |
発行日 | 2025-03-26 17:33:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google