要約
生物学的視覚システムのメカニズムに触発された光学フローは、ロボット工学が複雑で動的な作業環境で優れていることを可能にするために必要な視覚シーン内の空間運動ベクトルを計算します。
ただし、ベンチマークデータセットでの人間の競争的タスクパフォーマンスにもかかわらず、現在の光フローアルゴリズムは、実際の展開における容認できない時間遅延(推論あたり約0.6秒、4倍の人間の処理速度)によって制約されたままです。
ここでは、空間運動分析を支援するためにシナプストランジスタアレイに一時的な情報を直接エンコードすることにより、遅延ボトルネックに対処する神経形成光フローアプローチを導入します。
従来の空間のみの光流量法と比較して、私たちの時空間神経フ型光学流量は、動き情報の空間的な一貫性を提供し、埋め込まれた時間情報から導出された時間的運動キューを使用して、わずか1〜2ミリ秒の関心領域を迅速に識別します。
2次元フローティングゲートシナプストランジスタ。
したがって、視覚入力を選択的にフィルタリングして、より高速な速度計算とさまざまなタスク実行を実現できます。
ハードウェアレベルでは、2次元ファンデルワールスヘテロ構造の異なる官能層間の原子的に鋭い界面のため、シナプストランジスタは高周波応答(〜100 {\ mu} s)、堅牢な非偏波(> 10000 sを提供します
)、および優れた持久力(> 8000サイクル)、堅牢な視覚処理を可能にします。
ソフトウェアベンチマークでは、私たちのシステムは、400%のスピードアップで最先端のアルゴリズムを上回り、埋め込まれた時間情報によって提供される時間的プライアーを利用することにより、精度を維持または強化しながら、人間レベルのパフォーマンスを頻繁に上回ります。
要約(オリジナル)
Optical flow, inspired by the mechanisms of biological visual systems, calculates spatial motion vectors within visual scenes that are necessary for enabling robotics to excel in complex and dynamic working environments. However, current optical flow algorithms, despite human-competitive task performance on benchmark datasets, remain constrained by unacceptable time delays (~0.6 seconds per inference, 4X human processing speed) in practical deployment. Here, we introduce a neuromorphic optical flow approach that addresses delay bottlenecks by encoding temporal information directly in a synaptic transistor array to assist spatial motion analysis. Compared to conventional spatial-only optical flow methods, our spatiotemporal neuromorphic optical flow offers the spatial-temporal consistency of motion information, rapidly identifying regions of interest in as little as 1-2 ms using the temporal motion cues derived from the embedded temporal information in the two-dimensional floating gate synaptic transistors. Thus, the visual input can be selectively filtered to achieve faster velocity calculations and various task execution. At the hardware level, due to the atomically sharp interfaces between distinct functional layers in two-dimensional van der Waals heterostructures, the synaptic transistor offers high-frequency response (~100 {\mu}s), robust non-volatility (>10000 s), and excellent endurance (>8000 cycles), enabling robust visual processing. In software benchmarks, our system outperforms state-of-the-art algorithms with a 400% speedup, frequently surpassing human-level performance while maintaining or enhancing accuracy by utilizing the temporal priors provided by the embedded temporal information.
arxiv情報
著者 | Shengbo Wang,Jingwen Zhao,Tongming Pu,Liangbing Zhao,Xiaoyu Guo,Yue Cheng,Cong Li,Weihao Ma,Chenyu Tang,Zhenyu Xu,Ningli Wang,Luigi Occhipinti,Arokia Nathan,Ravinder Dahiya,Huaqiang Wu,Li Tao,Shuo Gao |
発行日 | 2025-01-30 12:20:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google