RevBiFPN: The Fully Reversible Bidirectional Feature Pyramid Network

要約

この作品では、双方向マルチスケール機能融合のための最初のリバーシブルモジュールであるRevSiloを紹介します。
他のリバーシブルメソッドと同様に、RevSiloは、非表示のアクティベーションを再計算することで保存する必要をなくします。
ただし、既存のリバーシブル方式はマルチスケール機能融合には適用されないため、大規模なクラスのネットワークには適用できません。
双方向のマルチスケール機能融合は、ローカルおよびグローバルのコヒーレンスを促進し、空間的に敏感なタスクを対象とするネットワークの事実上の設計原則になりました。
HRNetとEfficientDet。
これらのネットワークを高解像度の入力と組み合わせると、さまざまなコンピュータービジョンタスク全体で最先端の結果が得られますが、それらをトレーニングするには、大規模なマルチ解像度のアクティベーションを保存するための十分なアクセラレータメモリが必要です。
これらのメモリ要件は、ネットワークサイズを制限し、進行を制限します。
リバーシブル再計算を使用して、RevSiloは、解像度スケール全体で動作しながら、メモリの問題を軽減します。
RevSilosをスタックして、完全にリバーシブルな双方向機能ピラミッドネットワークであるRevBiFPNを作成します。
分類に関しては、RevBiFPNはEfficientNetなどのネットワークと競合し、最大19.8分の1のトレーニングメモリを使用します。
COCOで微調整すると、RevBiFPNは、より少ないMACとトレーニング時間メモリの2.4分の1の削減を使用して、HRNetよりもAPを最大2.5%向上させます。

要約(オリジナル)

This work introduces the RevSilo, the first reversible module for bidirectional multi-scale feature fusion. Like other reversible methods, RevSilo eliminates the need to store hidden activations by recomputing them. Existing reversible methods, however, do not apply to multi-scale feature fusion and are therefore not applicable to a large class of networks. Bidirectional multi-scale feature fusion promotes local and global coherence and has become a de facto design principle for networks targeting spatially sensitive tasks e.g. HRNet and EfficientDet. When paired with high-resolution inputs, these networks achieve state-of-the-art results across various computer vision tasks, but training them requires substantial accelerator memory for saving large, multi-resolution activations. These memory requirements cap network size and limit progress. Using reversible recomputation, the RevSilo alleviates memory issues while still operating across resolution scales. Stacking RevSilos, we create RevBiFPN, a fully reversible bidirectional feature pyramid network. For classification, RevBiFPN is competitive with networks such as EfficientNet while using up to 19.8x lesser training memory. When fine-tuned on COCO, RevBiFPN provides up to a 2.5% boost in AP over HRNet using fewer MACs and a 2.4x reduction in training-time memory.

arxiv情報

著者 Vitaliy Chiley,Vithursan Thangarasa,Abhay Gupta,Anshul Samar,Joel Hestness,Dennis DeCoste
発行日 2022-06-28 15:48:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク