Lightweight Monocular Depth Estimation via Token-Sharing Transformer


深さの推定は、さまざまなロボット システムやアプリケーションにおいて重要なタスクです。
モバイル ロボット システムでは、単一の RGB カメラを低コストでコンパクトなサイズで展開できるため、単眼での深度推定が望ましいです。
ニーズが大きく高まりつつあるため、モバイル ロボット システム用に多くの軽量の単眼深度推定ネットワークが提案されています。
ほとんどの軽量の単眼奥行き推定方法は畳み込みニューラル ネットワークを使用して開発されていますが、最近では Transformer が単眼奥行き推定に徐々に利用されています。
ただし、Transformer のパラメータと計算コストが膨大であるため、組み込みデバイスへの展開が妨げられます。
この論文では、特に組み込みデバイスで最適化された、単眼奥行き推定に Transformer を使用するアーキテクチャである Token-Sharing Transformer (TST) を紹介します。
提案された TST はグローバル トークン共有を利用しており、これによりモデルは組み込みデバイスで高スループットで正確な深度予測を取得できます。
実験結果は、TST が既存の軽量の単眼奥行き推定方法よりも優れていることを示しています。
NYU Depth v2 データセットでは、TST は、既存の方法よりも低いエラーで、NVIDIA Jetson nano で最大 63.4 FPS、NVIDIA Jetson TX2 で 142.6 FPS の深度マップを提供できます。
さらに、TST は、Jetson TX2 上で高解像度画像のリアルタイムの深度推定を実現し、競争力のある結果をもたらします。


Depth estimation is an important task in various robotics systems and applications. In mobile robotics systems, monocular depth estimation is desirable since a single RGB camera can be deployable at a low cost and compact size. Due to its significant and growing needs, many lightweight monocular depth estimation networks have been proposed for mobile robotics systems. While most lightweight monocular depth estimation methods have been developed using convolution neural networks, the Transformer has been gradually utilized in monocular depth estimation recently. However, massive parameters and large computational costs in the Transformer disturb the deployment to embedded devices. In this paper, we present a Token-Sharing Transformer (TST), an architecture using the Transformer for monocular depth estimation, optimized especially in embedded devices. The proposed TST utilizes global token sharing, which enables the model to obtain an accurate depth prediction with high throughput in embedded devices. Experimental results show that TST outperforms the existing lightweight monocular depth estimation methods. On the NYU Depth v2 dataset, TST can deliver depth maps up to 63.4 FPS in NVIDIA Jetson nano and 142.6 FPS in NVIDIA Jetson TX2, with lower errors than the existing methods. Furthermore, TST achieves real-time depth estimation of high-resolution images on Jetson TX2 with competitive results.


著者 Dong-Jae Lee,Jae Young Lee,Hyounguk Shon,Eojindl Yi,Yeong-Hun Park,Sung-Sik Cho,Junmo Kim
発行日 2023-06-09 05:51:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO, eess.IV パーマリンク