要約
Implicit Neural Representation (INR) は、ジオメトリや表面構造を明示的に定義せずに、複雑な形状やオブジェクトを表現するための革新的なアプローチです。
代わりに、INR はオブジェクトを連続関数として表します。
これまでの研究では、ニューラル ネットワークを画像圧縮の INR として使用する有効性が実証されており、JPEG などの従来の方法と同等のパフォーマンスが示されています。
しかし、INR は画像圧縮以外にもさまざまな用途に応用できる可能性を秘めています。
このペーパーでは、Rapid-INR を紹介します。これは、INR を画像のエンコードと圧縮に利用し、それによってコンピューター ビジョン タスクにおけるニューラル ネットワークのトレーニングを加速する新しいアプローチです。
私たちの方法論では、データセット全体を INR 形式で GPU に直接保存し、トレーニング中の CPU と GPU の間の重大なデータ通信オーバーヘッドを軽減します。
さらに、INR から RGB 形式へのデコード プロセスは高度に並列化され、オンザフライで実行されます。
圧縮をさらに強化するために、以前の研究に基づいて、反復的かつ動的プルーニングとレイヤーごとの量子化を提案します。
ResNet-18 バックボーン ネットワークと、画像サイズが異なる 3 つの一般的に使用されるデータセットを利用して、画像分類タスクに関するフレームワークを評価します。
Rapid-INR は、メモリ消費量を RGB 形式の元のデータセット サイズのわずか約 5% に削減し、PyTorch トレーニング パイプラインと比べて最大 6 倍の高速化を実現し、DALI トレーニング パイプラインと比べて最大 1.2 倍の高速化を実現します。
精度がわずかに低下するだけです。
重要なのは、Rapid-INR は、合理的なエンジニアリング努力を行うことで、他のコンピュータ ビジョン タスクやバックボーン ネットワークに容易に適用できることです。
私たちの実装コードは https://github.com/sharc-lab/Rapid-INR で公開されています。
要約(オリジナル)
Implicit Neural Representation (INR) is an innovative approach for representing complex shapes or objects without explicitly defining their geometry or surface structure. Instead, INR represents objects as continuous functions. Previous research has demonstrated the effectiveness of using neural networks as INR for image compression, showcasing comparable performance to traditional methods such as JPEG. However, INR holds potential for various applications beyond image compression. This paper introduces Rapid-INR, a novel approach that utilizes INR for encoding and compressing images, thereby accelerating neural network training in computer vision tasks. Our methodology involves storing the whole dataset directly in INR format on a GPU, mitigating the significant data communication overhead between the CPU and GPU during training. Additionally, the decoding process from INR to RGB format is highly parallelized and executed on-the-fly. To further enhance compression, we propose iterative and dynamic pruning, as well as layer-wise quantization, building upon previous work. We evaluate our framework on the image classification task, utilizing the ResNet-18 backbone network and three commonly used datasets with varying image sizes. Rapid-INR reduces memory consumption to only about 5% of the original dataset size in RGB format and achieves a maximum 6$\times$ speedup over the PyTorch training pipeline, as well as a maximum 1.2x speedup over the DALI training pipeline, with only a marginal decrease in accuracy. Importantly, Rapid-INR can be readily applied to other computer vision tasks and backbone networks with reasonable engineering efforts. Our implementation code is publicly available at https://github.com/sharc-lab/Rapid-INR.
arxiv情報
著者 | Hanqiu Chen,Hang Yang,Stephen Fitzmeyer,Cong Hao |
発行日 | 2024-04-23 23:20:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google