High Speed Human Action Recognition using a Photonic Reservoir Computer

要約

ビデオ内の人間の動作の認識は、コンピューター ビジョンの最も活発な研究分野の 1 つです。
標準的なアプローチは、生のビデオ データの多かれ少なかれ複雑な前処理段階と、それに続く比較的単純な分類アルゴリズムで構成されます。
ここでは、リザーバー コンピューティング アルゴリズムを使用して人間の行動の認識に取り組みます。これにより、分類器段階に焦点を当てることができます。
短い時間スケールと長い時間スケールを簡単に組み合わせた「Timesteps Of Interest」に基づいた、リザーバーコンピューターの新しいトレーニング方法を紹介します。
私たちは、数値シミュレーションと、よく知られている KTH データセット上の単一の非線形ノードと遅延線に基づくフォトニック実装の両方を使用して、このアルゴリズムのパフォーマンスを研究します。
私たちは、複数のビデオ ストリームをリアルタイムで処理できるほど、高い精度と速度でタスクを解決します。
したがって、現在の研究は、ビデオ処理用の効率的な専用ハードウェアの開発に向けた重要なステップとなります。

要約(オリジナル)

The recognition of human actions in videos is one of the most active research fields in computer vision. The canonical approach consists in a more or less complex preprocessing stages of the raw video data, followed by a relatively simple classification algorithm. Here we address recognition of human actions using the reservoir computing algorithm, which allows us to focus on the classifier stage. We introduce a new training method for the reservoir computer, based on ‘Timesteps Of Interest’, which combines in a simple way short and long time scales. We study the performance of this algorithm using both numerical simulations and a photonic implementation based on a single non-linear node and a delay line on the well known KTH dataset. We solve the task with high accuracy and speed, to the point of allowing for processing multiple video streams in real time. The present work is thus an important step towards developing efficient dedicated hardware for video processing.

arxiv情報

著者 Enrico Picco,Piotr Antonik,Serge Massar
発行日 2023-05-24 16:04:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.ET, physics.optics パーマリンク