要約
タイトル:異種協調自律システムの非対称性に対処するHeteroEdge
要約:
– IoTデバイス向けに開発されたシステムで周囲の環境に関する知識を収集し、状況認識を生成することは非常に重要である。
– 大規模な監視システムは、通常カメラやLIDARなどの複数のモードのセンサーを装備しており、アクション、顔、行動、オブジェクトの認識のために深層学習アルゴリズムを実行する必要がある。
– これらのシステムは普及した性質から電源とメモリの制約に直面しており、データ処理、深層学習アルゴリズムの入力、モデル推論通信の最適化が重要になる。
– 本論文では、2つのUGVと2つのNVIDIA Jetsonデバイスで構成されたテストベッドに対して自己適応型最適化フレームワークを提案している。
– このフレームワークは、異種のノード上で複数のタスク(ストレージ、処理、計算、伝送、推論)を効率的に管理する。イメージフレームを圧縮してマスキングし、類似フレームを識別し、プロファイルを実行して最適化の境界条件を取得することが含まれる。
– 最後に、ネットワーク帯域幅、ビジーファクター、メモリ(CPU、GPU、RAM)およびデバイスの電源制約を考慮して、データを他のデバイスにオフロードする必要がある割合を示す”パラメータ分割率”を提案して最適化する。
– PoseNet、SegNet、ImageNet、DetectNet、DepthNetなどの複数のタスクを同時に実行する際にキャプチャされた評価により、オフロード遅延を約33%(18.7ミリ秒/画像から12.5ミリ秒/画像)、総合操作時間を約47%(69.32秒から36.43秒)削減したことが明らかになった。
要約(オリジナル)
Gathering knowledge about surroundings and generating situational awareness for IoT devices is of utmost importance for systems developed for smart urban and uncontested environments. For example, a large-area surveillance system is typically equipped with multi-modal sensors such as cameras and LIDARs and is required to execute deep learning algorithms for action, face, behavior, and object recognition. However, these systems face power and memory constraints due to their ubiquitous nature, making it crucial to optimize data processing, deep learning algorithm input, and model inference communication. In this paper, we propose a self-adaptive optimization framework for a testbed comprising two Unmanned Ground Vehicles (UGVs) and two NVIDIA Jetson devices. This framework efficiently manages multiple tasks (storage, processing, computation, transmission, inference) on heterogeneous nodes concurrently. It involves compressing and masking input image frames, identifying similar frames, and profiling devices to obtain boundary conditions for optimization.. Finally, we propose and optimize a novel parameter split-ratio, which indicates the proportion of the data required to be offloaded to another device while considering the networking bandwidth, busy factor, memory (CPU, GPU, RAM), and power constraints of the devices in the testbed. Our evaluations captured while executing multiple tasks (e.g., PoseNet, SegNet, ImageNet, DetectNet, DepthNet) simultaneously, reveal that executing 70% (split-ratio=70%) of the data on the auxiliary node minimizes the offloading latency by approx. 33% (18.7 ms/image to 12.5 ms/image) and the total operation time by approx. 47% (69.32s to 36.43s) compared to the baseline configuration (executing on the primary node).
arxiv情報
著者 | Mohammad Saeid Anwar,Emon Dey,Maloy Kumar Devnath,Indrajeet Ghosh,Naima Khan,Jade Freeman,Timothy Gregory,Niranjan Suri,Kasthuri Jayaraja,Sreenivasan Ramasamy Ramamurthy,Nirmalya Roy |
発行日 | 2023-05-05 02:43:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI