要約
Long Short-Term Memory (LSTM) と 3D コンボリューション (Conv3D) は、多くのビデオベースのアプリケーションで優れた結果を示しますが、大容量のメモリと集中的なコンピューティングが必要です。
効率的な推論に向けたハードウェアとアルゴリズムの協調設計に関する最近の研究に動機付けられ、リソースに非常に制約のあるハードウェアと互換性のある、BILLNET と呼ばれるコンパクトな 2 値化 Conv3D-LSTM モデル アーキテクチャを提案します。
まず、BILLNET は、間にグループ化された畳み込みを含む 2 つの点ごとの畳み込みによって、コストのかかる標準 Conv3D を因数分解することを提案しています。
次に、BILLNET は、MUX-OR ゲート残差アーキテクチャを介して 2 値化された重みとアクティベーションを可能にします。
最後に、BILLNET を効率的にトレーニングするために、LSTM 層を完全に量子化できる多段階トレーニング戦略を提案します。
Jester データセットの結果は、私たちの方法が既存の Conv3D リソース効率の高いモデルと比較して、非常に少ないメモリと計算予算で高い精度を取得できることを示しています。
要約(オリジナル)
Long Short-Term Memory (LSTM) and 3D convolution (Conv3D) show impressive results for many video-based applications but require large memory and intensive computing. Motivated by recent works on hardware-algorithmic co-design towards efficient inference, we propose a compact binarized Conv3D-LSTM model architecture called BILLNET, compatible with a highly resource-constrained hardware. Firstly, BILLNET proposes to factorize the costly standard Conv3D by two pointwise convolutions with a grouped convolution in-between. Secondly, BILLNET enables binarized weights and activations via a MUX-OR-gated residual architecture. Finally, to efficiently train BILLNET, we propose a multi-stage training strategy enabling to fully quantize LSTM layers. Results on Jester dataset show that our method can obtain high accuracy with extremely low memory and computational budgets compared to existing Conv3D resource-efficient models.
arxiv情報
著者 | Van Thien Nguyen,William Guicquero,Gilles Sicard |
発行日 | 2025-01-24 13:51:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google