Training a Large Video Model on a Single Machine in a Day

要約

ビデオはサイズが大きく、前処理が複雑で、トレーニングに時間がかかります。
最先端の大規模ビデオ モデルは、32 個以上の GPU のクラスターで数日間トレーニングされます。
その結果、学術界は大規模なビデオ モデルのトレーニングを産業界にほとんど譲りました。
このペーパーでは、8 個のコンシューマー グレードの GPU を搭載した 1 台のマシンで最先端のビデオ モデルを 1 日でトレーニングする方法を示します。
IO、CPU、GPUの計算という3つのボトルネックを特定し、それぞれを最適化します。
その結果、非常に効率的なビデオ トレーニング パイプラインが実現します。
同等のアーキテクチャの場合、私たちのパイプラインは、以前の作業と比較して $\frac{1}{8}$ の計算でより高い精度を達成します。
コードは https://github.com/zhaoyue-zephyrus/AVION で入手できます。

要約(オリジナル)

Videos are big, complex to pre-process, and slow to train on. State-of-the-art large-scale video models are trained on clusters of 32 or more GPUs for several days. As a consequence, academia largely ceded the training of large video models to industry. In this paper, we show how to still train a state-of-the-art video model on a single machine with eight consumer-grade GPUs in a day. We identify three bottlenecks, IO, CPU, and GPU computation, and optimize each. The result is a highly efficient video training pipeline. For comparable architectures, our pipeline achieves higher accuracies with $\frac{1}{8}$ of the computation compared to prior work. Code is available at https://github.com/zhaoyue-zephyrus/AVION.

arxiv情報

著者 Yue Zhao,Philipp Krähenbühl
発行日 2023-09-28 17:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク