アクセラレータは、合体されたTMバージョンを畳み込みで実装し、10のカテゴリを持つ28 $ \ times 28ピクセルのブール測定画像を分類します。
高速節の評価は、すべての節の重みとTsetlin Automata(TA)アクション信号をレジスタに保持することにより得られます。
このチップは、65 nmの低漏れCMOSテクノロジーに実装され、2.7mm $^2 $のアクティブエリアを占有します。
27.8 MHzの時計周波数では、アクセラレータは毎秒60.3K分類を達成し、分類あたり8.6 NJを消費します。
単一の画像を分類するためのレイテンシは、システムのタイミングオーバーヘッドを含む25.4 $ \ mu $ sです。
We present an all-digital programmable machine learning accelerator chip for image classification, underpinning on the Tsetlin machine (TM) principles. The TM is a machine learning algorithm founded on propositional logic, utilizing sub-pattern recognition expressions called clauses. The accelerator implements the coalesced TM version with convolution, and classifies booleanized images of 28$\times$28 pixels with 10 categories. A configuration with 128 clauses is used in a highly parallel architecture. Fast clause evaluation is obtained by keeping all clause weights and Tsetlin automata (TA) action signals in registers. The chip is implemented in a 65 nm low-leakage CMOS technology, and occupies an active area of 2.7mm$^2$. At a clock frequency of 27.8 MHz, the accelerator achieves 60.3k classifications per second, and consumes 8.6 nJ per classification. The latency for classifying a single image is 25.4 $\mu$s which includes system timing overhead. The accelerator achieves 97.42%, 84.54% and 82.55% test accuracies for the datasets MNIST, Fashion-MNIST and Kuzushiji-MNIST, respectively, matching the TM software models.
著者 | Svein Anders Tunheim,Yujin Zheng,Lei Jiao,Rishad Shafik,Alex Yakovlev,Ole-Christoffer Granmo |
発行日 | 2025-01-31 17:51:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google