要約
コンピュータ ビジョン用のほとんどのニューラル ネットワークは、RGB 画像を使用して推論するように設計されています。
ただし、これらの RGB 画像は通常、ディスクに保存する前に JPEG でエンコードされます。
それらをデコードすると、RGB ネットワークに避けられないオーバーヘッドが発生します。
代わりに、JPEG のエンコードされた機能から直接ビジョン トランスフォーマー (ViT) をトレーニングすることに重点を置いています。
このようにして、デコードのオーバーヘッドのほとんどを回避し、データの読み込みを加速できます。
既存の研究ではこの側面が研究されていますが、それらは CNN に焦点を当てています。
これらのエンコードされた機能がどのように構造化されているかにより、CNN はそのようなデータを受け入れるためにアーキテクチャに大幅な変更を加える必要があります。
ここでは、これが ViT には当てはまらないことを示します。
さらに、これらのエンコードされた機能に対して直接データ拡張に取り組んでいますが、私たちの知る限り、この設定でのトレーニングについては詳細に調査されていません。
これら 2 つの改善点 (ViT とデータ拡張) により、ViT-Ti モデルは、対応する RGB モデルと比較して、精度を損なうことなく、最大 39.2% 高速なトレーニングと 17.9% 高速な推論を達成することを示しています。
要約(オリジナル)
Most neural networks for computer vision are designed to infer using RGB images. However, these RGB images are commonly encoded in JPEG before saving to disk; decoding them imposes an unavoidable overhead for RGB networks. Instead, our work focuses on training Vision Transformers (ViT) directly from the encoded features of JPEG. This way, we can avoid most of the decoding overhead, accelerating data load. Existing works have studied this aspect but they focus on CNNs. Due to how these encoded features are structured, CNNs require heavy modification to their architecture to accept such data. Here, we show that this is not the case for ViTs. In addition, we tackle data augmentation directly on these encoded features, which to our knowledge, has not been explored in-depth for training in this setting. With these two improvements — ViT and data augmentation — we show that our ViT-Ti model achieves up to 39.2% faster training and 17.9% faster inference with no accuracy loss compared to the RGB counterpart.
arxiv情報
著者 | Jeongsoo Park,Justin Johnson |
発行日 | 2022-11-29 17:52:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google