要約
マルチメディアおよびコンピュータ ビジョン テクノロジの急速な進化には、多様なタスクとさまざまな環境を効果的に処理するための適応型ビジュアル モデル展開戦略が必要です。
この研究では、エッジ コンピューティングを活用して、多様なシナリオの下でビデオ分析に最も効率的なビジュアル モデルを動的に選択することで精度を保証できる新しいフレームワークである AxiomVision を紹介します。
AxiomVision は、階層化されたエッジクラウド アーキテクチャを利用して、軽量から複雑な DNN まで、カメラ ソースの影響を考慮しながら特定のシナリオに合わせて調整できる幅広いビジュアル モデルの展開を可能にします。
さらに、AxiomVision は 3 つの核となるイノベーションを提供します。(1) 継続的なオンライン学習を利用した動的なビジュアル モデル選択メカニズム、(2) カメラの視点の影響を効率的に考慮する効率的なオンライン方法、および (3) トポロジー駆動
モデル選択プロセスを加速するグループ化アプローチ。
厳密な理論的保証により、これらの進歩により、オブジェクトの検出、分類、カウントなど、マルチメディア システムに固有の視覚タスクに対するスケーラブルで効果的なソリューションが提供されます。
経験的に、AxiomVision は精度で 25.7\% の向上を達成します。
要約(オリジナル)
The rapid evolution of multimedia and computer vision technologies requires adaptive visual model deployment strategies to effectively handle diverse tasks and varying environments. This work introduces AxiomVision, a novel framework that can guarantee accuracy by leveraging edge computing to dynamically select the most efficient visual models for video analytics under diverse scenarios. Utilizing a tiered edge-cloud architecture, AxiomVision enables the deployment of a broad spectrum of visual models, from lightweight to complex DNNs, that can be tailored to specific scenarios while considering camera source impacts. In addition, AxiomVision provides three core innovations: (1) a dynamic visual model selection mechanism utilizing continual online learning, (2) an efficient online method that efficiently takes into account the influence of the camera’s perspective, and (3) a topology-driven grouping approach that accelerates the model selection process. With rigorous theoretical guarantees, these advancements provide a scalable and effective solution for visual tasks inherent to multimedia systems, such as object detection, classification, and counting. Empirically, AxiomVision achieves a 25.7\% improvement in accuracy.
arxiv情報
著者 | Xiangxiang Dai,Zeyu Zhang,Peng Yang,Yuedong Xu,Xutong Liu,John C. S. Lui |
発行日 | 2024-07-29 15:54:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google