要約
本論文では、画像パッチのDCT(離散コサイン変換)出力を用いたNNの性能と、MNISTの手書き数字を分類するためのleNetの性能を比較する。DCTの基礎関数はVisual Transformerの学習された基礎関数と類似しているが、適用速度は1桁以上速い。
要約(オリジナル)
This paper compares the performance of a NN taking the output of a DCT (Discrete Cosine Transform) of an image patch with leNet for classifying MNIST hand written digits. The basis functions underlying the DCT bear a passing resemblance to some of the learned basis function of the Visual Transformer but are an order of magnitude faster to apply.
arxiv情報
著者 | David Sinclair |
発行日 | 2022-11-04 11:56:00+00:00 |
arxivサイト | arxiv_id(pdf) |