要約
Tsetlinマシン(TM)の原則に基づいて、画像分類のための全デジタルプログラマブルマシン学習アクセラレータチップを紹介します。
TMは、句と呼ばれるサブパターン認識式を利用して、命題論理に基づいた機械学習アルゴリズムです。
アクセラレータは、合体されたTMバージョンを畳み込みで実装し、10のカテゴリを持つ28 $ \ times 28ピクセルのブール測定画像を分類します。
128の条項を備えた構成は、非常に並列アーキテクチャで使用されます。
高速節の評価は、すべての節の重みとTsetlin Automata(TA)アクション信号をレジスタに保持することにより得られます。
このチップは、65 nmの低漏れCMOSテクノロジーに実装され、2.7mm $^2 $のアクティブエリアを占有します。
27.8 MHzの時計周波数では、アクセラレータは毎秒60.3K分類を達成し、分類あたり8.6 NJを消費します。
単一の画像を分類するためのレイテンシは、システムのタイミングオーバーヘッドを含む25.4 $ \ mu $ sです。
Acceleratorは、TMソフトウェアモデルと一致するデータセットMnist、Fashion-Mnist、Kuzushiji-Mnistの97.42%、84.54%、および82.55%のテスト精度をそれぞれ達成します。
要約(オリジナル)
We present an all-digital programmable machine learning accelerator chip for image classification, underpinning on the Tsetlin machine (TM) principles. The TM is a machine learning algorithm founded on propositional logic, utilizing sub-pattern recognition expressions called clauses. The accelerator implements the coalesced TM version with convolution, and classifies booleanized images of 28$\times$28 pixels with 10 categories. A configuration with 128 clauses is used in a highly parallel architecture. Fast clause evaluation is obtained by keeping all clause weights and Tsetlin automata (TA) action signals in registers. The chip is implemented in a 65 nm low-leakage CMOS technology, and occupies an active area of 2.7mm$^2$. At a clock frequency of 27.8 MHz, the accelerator achieves 60.3k classifications per second, and consumes 8.6 nJ per classification. The latency for classifying a single image is 25.4 $\mu$s which includes system timing overhead. The accelerator achieves 97.42%, 84.54% and 82.55% test accuracies for the datasets MNIST, Fashion-MNIST and Kuzushiji-MNIST, respectively, matching the TM software models.
arxiv情報
著者 | Svein Anders Tunheim,Yujin Zheng,Lei Jiao,Rishad Shafik,Alex Yakovlev,Ole-Christoffer Granmo |
発行日 | 2025-01-31 17:51:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google