MonoPIC – A Monocular Low-Latency Pedestrian Intention Classification Framework for IoT Edges Using ID3 Modelled Decision Trees


自律走行車が関与する交通事故は、(歩行者)障害物が非常に突発的な時間間隔で走行車両の進路上に現れる状況でよく発生する。 この問題に対処するために、我々は、MediaPipeの姿勢推定モデルから生成されたクォータニオンを用いて、2次元フレーム内の任意に選択された1人の歩行者の意図を、手続き的な方法で論理状態に分類する、新しいアルゴリズム実装を提案する。これは、主に奥行き知覚の必要性がないことと、ほとんどのIoTエッジデバイスが持つ計算リソースに暗黙の上限があることから、比較的待ち時間の長いディープラーニングアルゴリズムを採用する必要がない。 このモデルは、48ミリ秒の平均待ち時間で動作しながら、0.0042の信頼できる分散で83.56%の平均テスト精度を達成することができ、これらの知覚タスクのために時空間畳み込みネットワークを使用する現在の標準よりも複数の顕著な利点を実証した。


Road accidents involving autonomous vehicles commonly occur in situations where a (pedestrian) obstacle presents itself in the path of the moving vehicle at very sudden time intervals, leaving the robot even lesser time to react to the change in scene. In order to tackle this issue, we propose a novel algorithmic implementation that classifies the intent of a single arbitrarily chosen pedestrian in a two dimensional frame into logic states in a procedural manner using quaternions generated from a MediaPipe pose estimation model. This bypasses the need to employ any relatively high latency deep-learning algorithms primarily due to the lack of necessity for depth perception as well as an implicit cap on the computational resources that most IoT edge devices present. The model was able to achieve an average testing accuracy of 83.56% with a reliable variance of 0.0042 while operating with an average latency of 48 milliseconds, demonstrating multiple notable advantages over the current standard of using spatio-temporal convolutional networks for these perceptive tasks.


著者 Sriram Radhakrishna,Adithya Balasubramanyam
発行日 2024-02-04 03:53:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.CV, cs.RO パーマリンク