Bytes Are All You Need: Transformers Operating Directly On File Bytes

要約

最新の深層学習アプローチでは、通常、モダリティ固有の処理が利用されます。
たとえば、画像分類に対する最も一般的な深層学習アプローチには、画像ファイルのバイトを RGB テンソルにデコードし、ニューラル ネットワークに渡すことが含まれます。
代わりに、推論時にファイルをデコードする必要なく、ファイルバイトに対して直接分類を実行することにより、モダリティに依存しない表現学習を調査します。
これにより、手作業で設計したモダリティ固有の処理を行わなくても、モデルがさまざまなモダリティで動作できるようになります。
私たちのモデル ByteFormer は、同様のサイズの DeIT モデルと比較して、ImageNet Top-1 分類精度を $5\%$ ($72.2\%$ から $77.33\%$) 向上させます。
Perceiver IO と比較して、私たちのモデルは推論時にモダリティ固有の処理をまったく必要とせず、ImageNet 上で同等の精度で使用するパラメーターの数が 1 桁少なくなります。
同じ ByteFormer アーキテクチャが、変更やモダリティ固有の前処理を行わずに音声分類を実行できることを実証します。
Speech Commands V2 データセットでは $95.42\%$ の分類精度を達成しています ($98.7\%$ の最先端の精度に匹敵します)。
さらに、ByteFormer が画像と音声を共同で操作し、入力モダリティの明示的な知識がなくても共同分類を処理できることを実証します。
コードは https://github.com/apple/corenet/tree/main/projects/byteformer でリリースされています。

要約(オリジナル)

Modern deep learning approaches usually utilize modality-specific processing. For example, the most common deep learning approach to image classification involves decoding image file bytes into an RGB tensor which is passed into a neural network. Instead, we investigate modality-independent representation learning by performing classification directly on file bytes, without the need for decoding files at inference time. This enables models to operate on various modalities without any hand-designed, modality-specific processing. Our model, ByteFormer, improves ImageNet Top-1 classification accuracy by $5\%$ (from $72.2\%$ to $77.33\%$) relative to DeIT models of similar size. Compared to Perceiver IO, our model requires absolutely no modality-specific processing at inference time, and uses an order of magnitude fewer parameters at equivalent accuracy on ImageNet. We demonstrate that the same ByteFormer architecture can perform audio classification without modifications or modality-specific preprocessing. We achieve $95.42\%$ classification accuracy on the Speech Commands V2 dataset (comparable to the state-of-the-art accuracy of $98.7\%$). Additionally, we demonstrate that ByteFormer can operate jointly on images and audio, handling joint classification without explicit knowledge of the input modality. We release our code at https://github.com/apple/corenet/tree/main/projects/byteformer.

arxiv情報

著者 Maxwell Horton,Sachin Mehta,Ali Farhadi,Mohammad Rastegari
発行日 2024-07-01 15:54:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク