Unlocking Real-Time Fluorescence Lifetime Imaging: Multi-Pixel Parallelism for FPGA-Accelerated Processing

要約

蛍光寿命イメージング (FLI) は、蛍光分子の減衰時間を測定するための生物医学分野で広く使用されており、代謝状態、タンパク質相互作用、およびリガンドと受容体の結合についての洞察を提供します。
しかし、動的活動モニタリングなどの高速生物学的プロセスや誘導手術などの臨床用途における広範な応用は、長いデータ取得時間と計算負荷の高いデータ処理によって制限されます。
深層学習により後処理時間は短縮されましたが、リアルタイム アプリケーションにとっては時間分解データの取得が依然としてボトルネックとなっています。
これに対処するために、FPGA ベースのハードウェア アクセラレータを使用してリアルタイム FLI を実現する方法を提案します。
具体的には、時間分解カメラと互換性のある FPGA ボード上に GRU ベースのシーケンスツーシーケンス (Seq2Seq) モデルを実装しました。
GRU モデルは、DSP ユニットと BRAM が限られている FPGA のリソース制約と正確な処理のバランスをとります。
FPGA 上のメモリと計算リソースは限られているため、低レイテンシー アプリケーション向けのディープ ラーニング モデルを展開するには、操作とメモリ割り当ての効率的なスケジューリングが必要です。
私たちは、ハードウェア上のタスク スケジューリングとメモリ管理を自動化および最適化するキューベースの離散イベント シミュレータである STOMP を使用して、これらの課題に対処します。
GRU ベースの Seq2Seq モデルと、知識の蒸留によって生成された Seq2SeqLite と呼ばれるその圧縮バージョンを統合することにより、複数のピクセルを並行して処理することができ、逐次処理と比較して遅延を短縮できました。
パフォーマンスとリソース使用率の最適なバランスを実現するために、さまざまなレベルの並列処理を検討します。
我々の結果は、提案された手法が Seq2Seq モデルと Seq2SeqLite モデルでそれぞれ手動スケジューリングと比較して 17.7 倍と 52.0 倍の高速化を達成したことを示しています。

要約(オリジナル)

Fluorescence lifetime imaging (FLI) is a widely used technique in the biomedical field for measuring the decay times of fluorescent molecules, providing insights into metabolic states, protein interactions, and ligand-receptor bindings. However, its broader application in fast biological processes, such as dynamic activity monitoring, and clinical use, such as in guided surgery, is limited by long data acquisition times and computationally demanding data processing. While deep learning has reduced post-processing times, time-resolved data acquisition remains a bottleneck for real-time applications. To address this, we propose a method to achieve real-time FLI using an FPGA-based hardware accelerator. Specifically, we implemented a GRU-based sequence-to-sequence (Seq2Seq) model on an FPGA board compatible with time-resolved cameras. The GRU model balances accurate processing with the resource constraints of FPGAs, which have limited DSP units and BRAM. The limited memory and computational resources on the FPGA require efficient scheduling of operations and memory allocation to deploy deep learning models for low-latency applications. We address these challenges by using STOMP, a queue-based discrete-event simulator that automates and optimizes task scheduling and memory management on hardware. By integrating a GRU-based Seq2Seq model and its compressed version, called Seq2SeqLite, generated through knowledge distillation, we were able to process multiple pixels in parallel, reducing latency compared to sequential processing. We explore various levels of parallelism to achieve an optimal balance between performance and resource utilization. Our results indicate that the proposed techniques achieved a 17.7x and 52.0x speedup over manual scheduling for the Seq2Seq model and the Seq2SeqLite model, respectively.

arxiv情報

著者 Ismail Erbas,Aporva Amarnath,Vikas Pandey,Karthik Swaminathan,Naigang Wang,Xavier Intes
発行日 2024-11-15 15:46:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG, physics.optics パーマリンク