要約
このホワイト ペーパーの目的は、ビデオ タスクの効率的なトレーニング方法です。
私たちは 3 つの貢献をします: (1) 複数のビデオ タスクに関するトランスフォーマー向けのシンプルで用途の広いトレーニング パラダイムであるターボ トレーニングを提案します。
(2) アクションの分類、ビデオ言語表現の学習、および長いビデオ アクティビティの分類に関する Turbo トレーニングの利点を説明し、Turbo トレーニングがほぼ 4 倍のスピードアップと大幅なメモリ消費の削減を達成しながら、競争力のあるパフォーマンスを大幅に維持できることを示します。
(3) ターボ トレーニングにより、長時間のビデオ言語トレーニングとエンド ツー エンドの長いビデオ トレーニングが可能になり、限られたリソースではトレーニングが不可能だった以前の作品よりも競争力のある、または優れたパフォーマンスを実現します。
要約(オリジナル)
The objective of this paper is an efficient training method for video tasks. We make three contributions: (1) We propose Turbo training, a simple and versatile training paradigm for Transformers on multiple video tasks. (2) We illustrate the advantages of Turbo training on action classification, video-language representation learning, and long-video activity classification, showing that Turbo training can largely maintain competitive performance while achieving almost 4X speed-up and significantly less memory consumption. (3) Turbo training enables long-schedule video-language training and end-to-end long-video training, delivering competitive or superior performance than previous works, which were infeasible to train under limited resources.
arxiv情報
著者 | Tengda Han,Weidi Xie,Andrew Zisserman |
発行日 | 2022-10-10 17:59:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google