Patch DCT vs LeNet


本論文では、画像パッチのDCT(離散コサイン変換)出力を用いたNNの性能と、MNISTの手書き数字を分類するためのleNetの性能を比較する。DCTの基礎関数はVisual Transformerの学習された基礎関数と類似しているが、適用速度は1桁以上速い。


This paper compares the performance of a NN taking the output of a DCT (Discrete Cosine Transform) of an image patch with leNet for classifying MNIST hand written digits. The basis functions underlying the DCT bear a passing resemblance to some of the learned basis function of the Visual Transformer but are an order of magnitude faster to apply.


著者 David Sinclair
発行日 2022-11-04 11:56:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.CV パーマリンク