Street Crossing Aid Using Light-weight CNNs for the Visually Impaired

要約

本稿では、交差点を横断する際に視覚障害者が一般的に直面する問題に取り組み、モバイルアプリケーションとして形を成すソリューションを提案します。
このアプリケーションは、深層学習畳み込みニューラルネットワークモデルLytNetV2を利用して、人間の同伴者や盲導犬がいない場合に視覚障害者が不足する可能性のある必要な情報を出力します。
アプリケーションのプロトタイプは、バージョン11以降のiOSデバイスで実行されます。
道路をリアルタイムで横断するために必要な、歩行者用信号機の色と方向という2つの最も重要な情報を提供することにより、包括性、簡潔さ、正確性、および計算効率を高めるように設計されています。
さらに、ソリューションは無料のモバイルアプリケーションの形をとるため、経済的負担に直面している人々をサポートすることを特に目的としています。
深さ方向に分離可能な畳み込みやスクイーズエキサイトレイヤーなどのMobileNetV3の主要な原則の変更と利用により、ディープニューラルネットワークモデルは、16.34フレームのフレームレートで実行しながら、96%の分類精度と6.15度の平均角度誤差を実現します。
毎秒。
さらに、モデルは画像分類器としてトレーニングされているため、より高速で正確なモデルが可能になります。
ネットワークは、オブジェクト検出や非深層学習アルゴリズムなどの他の方法よりも、精度と徹底性の両方で優れています。
情報は聴覚信号と振動の両方を介して配信され、7つの視覚障害者でテストされ、上記の満足のいく応答を受け取りました。

要約(オリジナル)

In this paper, we address an issue that the visually impaired commonly face while crossing intersections and propose a solution that takes form as a mobile application. The application utilizes a deep learning convolutional neural network model, LytNetV2, to output necessary information that the visually impaired may lack when without human companions or guide-dogs. A prototype of the application runs on iOS devices of versions 11 or above. It is designed for comprehensiveness, concision, accuracy, and computational efficiency through delivering the two most important pieces of information, pedestrian traffic light color and direction, required to cross the road in real-time. Furthermore, it is specifically aimed to support those facing financial burden as the solution takes the form of a free mobile application. Through the modification and utilization of key principles in MobileNetV3 such as depthwise seperable convolutions and squeeze-excite layers, the deep neural network model achieves a classification accuracy of 96% and average angle error of 6.15 degrees, while running at a frame rate of 16.34 frames per second. Additionally, the model is trained as an image classifier, allowing for a faster and more accurate model. The network is able to outperform other methods such as object detection and non-deep learning algorithms in both accuracy and thoroughness. The information is delivered through both auditory signals and vibrations, and it has been tested on seven visually impaired and has received above satisfactory responses.

arxiv情報

著者 Samuel Yu,Heon Lee,Jung Hoon Kim
発行日 2022-06-10 10:31:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, stat.ML パーマリンク