要約
トランスベースのモデルは、多様な時系列タスクで強力なパフォーマンスを示していますが、リソース制約のあるデバイスへの展開は、高いメモリと計算需要のために依然として困難です。
マイクロコントローラーユニット(MCU)をターゲットとする以前の作業は、ハードウェア固有の最適化を調査していますが、そのようなアプローチはしばしばタスク固有であり、8ビット固定点精度に制限されています。
フィールドプログラム可能なゲートアレイ(FPGA)は、より柔軟性を高め、データの精度とアーキテクチャをきめんゆか制御できます。
ただし、既存のFPGAベースのトランスの展開時間シリーズ分析は、通常、手動構成を備えた高密度プラットフォームに焦点を当てています。
このペーパーでは、埋め込まれたFPGA上の小さな変圧器用の統一された完全に自動化された展開フレームワークを紹介します。
当社のフレームワークは、3つの代表的な時系列タスク(予測、分類、および異常検出)にわたるコンパクトエンコーダのみのトランスアーキテクチャをサポートしています。
量子化対象のトレーニング(4ビットまで)、オプトナを使用したハードウェア対応ハイパーパラメーター検索、およびシームレスな展開のための自動VHDL生成を組み合わせます。
2つの組み込みFPGAプラットフォームにまたがる6つのパブリックデータセットでフレームワークを評価します。
結果は、我々のフレームワークが、AMD Spartan-7のミリ秒レイテンシで推論あたり0.033 MJの低いタスク固有の変圧器アクセラレータを生成すると同時に、ラティスICE40の展開の実現可能性に関する洞察を提供することを示しています。
すべてのソースコードは、githubリポジトリ(https://github.com/edwina1030/tinytransformer4ts)でリリースされます。
要約(オリジナル)
Transformer-based models have shown strong performance across diverse time-series tasks, but their deployment on resource-constrained devices remains challenging due to high memory and computational demand. While prior work targeting Microcontroller Units (MCUs) has explored hardware-specific optimizations, such approaches are often task-specific and limited to 8-bit fixed-point precision. Field-Programmable Gate Arrays (FPGAs) offer greater flexibility, enabling fine-grained control over data precision and architecture. However, existing FPGA-based deployments of Transformers for time-series analysis typically focus on high-density platforms with manual configuration. This paper presents a unified and fully automated deployment framework for Tiny Transformers on embedded FPGAs. Our framework supports a compact encoder-only Transformer architecture across three representative time-series tasks (forecasting, classification, and anomaly detection). It combines quantization-aware training (down to 4 bits), hardware-aware hyperparameter search using Optuna, and automatic VHDL generation for seamless deployment. We evaluate our framework on six public datasets across two embedded FPGA platforms. Results show that our framework produces integer-only, task-specific Transformer accelerators achieving as low as 0.033 mJ per inference with millisecond latency on AMD Spartan-7, while also providing insights into deployment feasibility on Lattice iCE40. All source code will be released in the GitHub repository (https://github.com/Edwina1030/TinyTransformer4TS).
arxiv情報
著者 | Tianheng Ling,Chao Qian,Lukas Johannes Haßler,Gregor Schiele |
発行日 | 2025-06-02 13:38:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google