要約
継続的学習 (CL) は、新しいデータに適応しながら以前の知識を保持することにより、分布が異なる受信データのストリームでモデルを順次トレーニングすることを目的としています。
現在の CL の文献は、以前に見たデータへのアクセスを制限することに重点を置いていますが、トレーニングの計算予算には制約を課していません。
これは、システムがストレージではなく計算と時間の予算によって主に制約されている実際のアプリケーションにとっては不合理です。
この問題を大規模なベンチマークで再検討し、計算が制限された設定で従来の CL アプローチのパフォーマンスを分析します。この設定では、トレーニングで使用される有効なメモリ サンプルが、制限された計算の結果として暗黙的に制限される可能性があります。
データ増分、クラス増分、および時間増分の設定で、ImageNet2K および継続的な Google ランドマーク V2 という 2 つの大規模データセットで、さまざまな CL サンプリング戦略、蒸留損失、および部分的な微調整を評価する実験を行います。
合計 1500 GPU 時間を超える大規模な実験を通じて、コンピューティングに制約のある設定では、従来の CL アプローチは、例外なく、メモリから均一にサンプリングする単純な最小限のベースラインよりも優れたパフォーマンスを発揮できないことがわかりました。
私たちの結論は、さまざまな数のストリーム タイム ステップ (たとえば 20 から 200) と、いくつかの計算予算の下で一貫しています。
これは、ほとんどの既存の CL メソッドが、現実的な予算で展開するには特に計算コストが高すぎることを示唆しています。
このプロジェクトのコードは、https://github.com/drimpossible/BudgetCL で入手できます。
要約(オリジナル)
Continual Learning (CL) aims to sequentially train models on streams of incoming data that vary in distribution by preserving previous knowledge while adapting to new data. Current CL literature focuses on restricted access to previously seen data, while imposing no constraints on the computational budget for training. This is unreasonable for applications in-the-wild, where systems are primarily constrained by computational and time budgets, not storage. We revisit this problem with a large-scale benchmark and analyze the performance of traditional CL approaches in a compute-constrained setting, where effective memory samples used in training can be implicitly restricted as a consequence of limited computation. We conduct experiments evaluating various CL sampling strategies, distillation losses, and partial fine-tuning on two large-scale datasets, namely ImageNet2K and Continual Google Landmarks V2 in data incremental, class incremental, and time incremental settings. Through extensive experiments amounting to a total of over 1500 GPU-hours, we find that, under compute-constrained setting, traditional CL approaches, with no exception, fail to outperform a simple minimal baseline that samples uniformly from memory. Our conclusions are consistent in a different number of stream time steps, e.g., 20 to 200, and under several computational budgets. This suggests that most existing CL methods are particularly too computationally expensive for realistic budgeted deployment. Code for this project is available at: https://github.com/drimpossible/BudgetCL.
arxiv情報
著者 | Ameya Prabhu,Hasan Abed Al Kader Hammoud,Puneet Dokania,Philip H. S. Torr,Ser-Nam Lim,Bernard Ghanem,Adel Bibi |
発行日 | 2023-03-20 14:50:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google