Dynamic Tsetlin Machine Accelerators for On-Chip Training at the Edge using FPGAs

要約

機械学習(ML)アプリケーションにおけるデータプライバシーとセキュリティの需要の増加により、インターネット(IoT)ノードの効果的なエッジトレーニングに推進力があります。
エッジトレーニングは、ノードのリソース制約内で速度、エネルギー効率、適応性を活用することを目的としています。
ディープニューラルネットワーク(DNNS)ベースのモデルをエッジで展開およびトレーニングすることは、正確ではありますが、DNN層の複雑さ、ビット精度のトレードオフ、および不均一性からの重要な課題を前向きに課します。
このペーパーでは、DNN実装の代替として動的なTsetlinマシン(DTM)トレーニングアクセラレータを紹介します。
DTMは、同じフィールドプログラマブルゲートアレイ(FPGA)パッケージ内で有限状態のオートマトン駆動型学習を使用して、ロジックベースのオンチップ推論を使用します。
バニラと合体されたTsetlinマシンアルゴリズムに支えられているAccelerator Designの動的な側面により、さまざまなデータセット、モデルアーキテクチャ、および再構成なしのモデルサイズをターゲットとするランタイム再構成が可能になります。
これにより、DTMは多変量センサーベースのエッジタスクをターゲットにするのに適しています。
DNNSと比較して、DTM列車は、微分計算がなく、導入計算がない多数の蓄積が少ない列車です。
これは、FPGAトレーニングの実装で効率的なルックアップテーブル(LUT)マッピングと質素なブロックRAM使用量を可能にする論理命題を形成するためにTsetlin Automataを入力データと調整することにより学習するデータ中心のMLアルゴリズムです。
提案されているアクセラレータは、ワットあたり2.54倍のギガ操作を1ワットあたり(wあたりのGOP/s)に提供し、次のベストの同等のデザインよりも6倍少ない電力を使用します。

要約(オリジナル)

The increased demand for data privacy and security in machine learning (ML) applications has put impetus on effective edge training on Internet-of-Things (IoT) nodes. Edge training aims to leverage speed, energy efficiency and adaptability within the resource constraints of the nodes. Deploying and training Deep Neural Networks (DNNs)-based models at the edge, although accurate, posit significant challenges from the back-propagation algorithm’s complexity, bit precision trade-offs, and heterogeneity of DNN layers. This paper presents a Dynamic Tsetlin Machine (DTM) training accelerator as an alternative to DNN implementations. DTM utilizes logic-based on-chip inference with finite-state automata-driven learning within the same Field Programmable Gate Array (FPGA) package. Underpinned on the Vanilla and Coalesced Tsetlin Machine algorithms, the dynamic aspect of the accelerator design allows for a run-time reconfiguration targeting different datasets, model architectures, and model sizes without resynthesis. This makes the DTM suitable for targeting multivariate sensor-based edge tasks. Compared to DNNs, DTM trains with fewer multiply-accumulates, devoid of derivative computation. It is a data-centric ML algorithm that learns by aligning Tsetlin automata with input data to form logical propositions enabling efficient Look-up-Table (LUT) mapping and frugal Block RAM usage in FPGA training implementations. The proposed accelerator offers 2.54x more Giga operations per second per Watt (GOP/s per W) and uses 6x less power than the next-best comparable design.

arxiv情報

著者 Gang Mao,Tousif Rahman,Sidharth Maheshwari,Bob Pattison,Zhuang Shao,Rishad Shafik,Alex Yakovlev
発行日 2025-04-28 13:38:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.LG パーマリンク