RevBiFPN: The Fully Reversible Bidirectional Feature Pyramid Network

要約

【タイトル】全て可逆な双方向フィーチャーピラミッドネットワーク(RevBiFPN)
【要約】
– RevSiloは最初の可逆な双方向マルチスケールフィーチャーフュージョンモジュールである
– 可逆な方法は、隠れたアクティベーションを再計算することで保存を排除する
– 既存の可逆な方法はマルチスケールフィーチャーフュージョンに適用されず、多くのネットワークには適用されない
– 双方向マルチスケールフィーチャーフュージョンは、HRNetやEfficientDetなどのネットワークでデファクトの設計原則となっており、高解像度入力とペアにすると、さまざまなコンピュータビジョンタスクで最先端の結果を実現している
– しかし、それらをトレーニングするには大量の加速器メモリが必要であり、これらのメモリ要件はニューラルネットワークのサイズを抑制し、規模による改善を制限する
– 解像度スケールを超えて操作するRevSiloによって、これらの問題を軽減できる
– RevSilosを積み重ねて、RevBiFPNという完全に可逆な双方向フィーチャーピラミッドネットワークを作成できる
– RevBiFPNは、EfficientNetなどのネットワークと競合しながら、画像分類のトレーニングメモリを19.8倍まで少なく使用する
– MS COCOで微調整すると、RevBiFPNは効率的なMAC数でHRNetよりAPを2.5%向上させ、トレーニング時間のメモリを2.4倍に削減する。

要約(オリジナル)

This work introduces RevSilo, the first reversible bidirectional multi-scale feature fusion module. Like other reversible methods, RevSilo eliminates the need to store hidden activations by recomputing them. However, existing reversible methods do not apply to multi-scale feature fusion and are, therefore, not applicable to a large class of networks. Bidirectional multi-scale feature fusion promotes local and global coherence and has become a de facto design principle for networks targeting spatially sensitive tasks, e.g., HRNet (Sun et al., 2019a) and EfficientDet (Tan et al., 2020). These networks achieve state-of-the-art results across various computer vision tasks when paired with high-resolution inputs. However, training them requires substantial accelerator memory for saving large, multi-resolution activations. These memory requirements inherently cap the size of neural networks, limiting improvements that come from scale. Operating across resolution scales, RevSilo alleviates these issues. Stacking RevSilos, we create RevBiFPN, a fully reversible bidirectional feature pyramid network. RevBiFPN is competitive with networks such as EfficientNet while using up to 19.8x lesser training memory for image classification. When fine-tuned on MS COCO, RevBiFPN provides up to a 2.5% boost in AP over HRNet using fewer MACs and a 2.4x reduction in training-time memory.

arxiv情報

著者 Vitaliy Chiley,Vithursan Thangarasa,Abhay Gupta,Anshul Samar,Joel Hestness,Dennis DeCoste
発行日 2023-04-28 23:54:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク