要約
高解像度画像は、自律走行やコンピュータ支援診断など、様々なアプリケーションで普及しています。しかし、このような画像でニューラルネットワークを学習させるのは計算量が多く、最新のGPUでも容易にメモリ不足に陥ります。我々は、メモリ使用量を入力サイズから切り離すことで、厳しいハードウェア制約のもとで任意のサイズの画像を処理することができるシンプルな方法、反復パッチ選択(IPS)を提案します。IPSは、最も顕著なパッチのみを選択し、それを画像認識のためのグローバル表現に集約することでこれを実現する。パッチ選択と集約の両方において、クロスアテンションベースの変換器を導入しており、これはMultiple Instance Learningと密接な関係を示している。本手法は、最小限のアクセラレータメモリを使用しながら、様々なドメイン、学習レジーム、画像サイズにおいて強力な性能を発揮し、幅広い応用が可能であることを示す。例えば、最大250kパッチ(16ギガピクセル以上)からなる全スライド画像において、バッチサイズ16でわずか5GBのGPU VRAMでモデルを微調整することができた。
要約(オリジナル)
High-resolution images are prevalent in various applications, such as autonomous driving and computer-aided diagnosis. However, training neural networks on such images is computationally challenging and easily leads to out-of-memory errors even on modern GPUs. We propose a simple method, Iterative Patch Selection (IPS), which decouples the memory usage from the input size and thus enables the processing of arbitrarily large images under tight hardware constraints. IPS achieves this by selecting only the most salient patches, which are then aggregated into a global representation for image recognition. For both patch selection and aggregation, a cross-attention based transformer is introduced, which exhibits a close connection to Multiple Instance Learning. Our method demonstrates strong performance and has wide applicability across different domains, training regimes and image sizes while using minimal accelerator memory. For example, we are able to finetune our model on whole-slide images consisting of up to 250k patches (>16 gigapixels) with only 5 GB of GPU VRAM at a batch size of 16.
arxiv情報
著者 | Benjamin Bergner,Christoph Lippert,Aravindh Mahendran |
発行日 | 2023-03-07 15:56:14+00:00 |
arxivサイト | arxiv_id(pdf) |