LiteDepth: Digging into Fast and Accurate Depth Estimation on Mobile Devices

要約

単眼的奥行き推定は、コンピュータビジョンの世界では不可欠なタスクである。しかし、そのほとんどは計算量が多く、デバイス上でのリアルタイムな推論には適用できない。本論文では、単眼深度推定のより実用的なアプリケーションに取り組むことを目的とし、モバイルデバイスでの精度だけでなく推論時間も考慮した解決策を提案する。この目的のために、我々はまず、小さなウェイトサイズ(1.4MB)と短い推論時間(Raspberry Pi 4で27FPS)を持つエンドツーエンドの学習ベースのモデルを開発する。そして、R2クロップと呼ばれるシンプルかつ効果的なデータ補強戦略を提案し、モデル性能を向上させる。さらに、1つの損失項のみで学習させた単純な軽量モデルは、性能ボトルネックに悩まされることを観察する。この問題を軽減するために、我々は複数の損失項を採用し、学習段階において十分な制約を与える。さらに、単純な動的再重み付け戦略により、時間のかかる損失項のハイパーパラメータの選択を回避することができる。最後に、モデルの性能をさらに向上させるために、構造を考慮した蒸留を採用する。特に、LiteDepthと名付けた我々のソリューションは、MAI&AIM2022 Monocular Depth Estimation Challenge}で2位となり、Si-RMSEが0.311、RMSEが3.79、Raspberry Pi 4でテストした推論時間が37$ms$であったことが示されています。特に、この課題に対する最速の解を提供します。コードやモデルなどは、୧⃛(๑⃙⃘◡̈︎๑⃙⃘)୨⃛で公開します。

要約(オリジナル)

Monocular depth estimation is an essential task in the computer vision community. While tremendous successful methods have obtained excellent results, most of them are computationally expensive and not applicable for real-time on-device inference. In this paper, we aim to address more practical applications of monocular depth estimation, where the solution should consider not only the precision but also the inference time on mobile devices. To this end, we first develop an end-to-end learning-based model with a tiny weight size (1.4MB) and a short inference time (27FPS on Raspberry Pi 4). Then, we propose a simple yet effective data augmentation strategy, called R2 crop, to boost the model performance. Moreover, we observe that the simple lightweight model trained with only one single loss term will suffer from performance bottleneck. To alleviate this issue, we adopt multiple loss terms to provide sufficient constraints during the training stage. Furthermore, with a simple dynamic re-weight strategy, we can avoid the time-consuming hyper-parameter choice of loss terms. Finally, we adopt the structure-aware distillation to further improve the model performance. Notably, our solution named LiteDepth ranks 2nd in the MAI&AIM2022 Monocular Depth Estimation Challenge}, with a si-RMSE of 0.311, an RMSE of 3.79, and the inference time is 37$ms$ tested on the Raspberry Pi 4. Notably, we provide the fastest solution to the challenge. Codes and models will be released at \url{https://github.com/zhyever/LiteDepth}.

arxiv情報

著者 Zhenyu Li,Zehui Chen,Jialei Xu,Xianming Liu,Junjun Jiang
発行日 2022-09-02 11:38:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク