要約
モバイル コンピューティング、自律ナビゲーション、AR/VR の多くの認識システムは、高解像度の入力画像では特に困難な厳しい計算上の制約に直面しています。
以前の研究では、顕著な画像領域で「ズームすることを学習」する不均一なダウンサンプラーが提案されており、タスク関連の画像情報を保持しながら計算を削減します。
ただし、空間ラベルを使用するタスク (2D/3D オブジェクト検出やセマンティック セグメンテーションなど) では、このような歪みがパフォーマンスに悪影響を及ぼす可能性があります。
この作業 (LZU) では、入力画像を「ズームイン」し、空間的特徴を計算してから、「ズーム解除」して変形を元に戻すことを学びます。
効率的で微分可能なズーム解除を可能にするために、可逆な区分的双線形マッピングでズームワープを近似します。
LZU は、2D 空間入力を使用する任意のタスクと 2D 空間特徴を使用する任意のモデルに適用できます。さまざまなタスクとデータセットで評価することにより、この汎用性を実証します: Argoverse-HD でのオブジェクト検出、都市景観でのセマンティック セグメンテーション、および単眼 3D オブジェクト
nuScenes での検出。
興味深いことに、高解像度のセンサー データが利用できない場合でもパフォーマンスの向上が見られます。これは、LZU を使用して「アップサンプリングを学習する」こともできることを意味します。
要約(オリジナル)
Many perception systems in mobile computing, autonomous navigation, and AR/VR face strict compute constraints that are particularly challenging for high-resolution input images. Previous works propose nonuniform downsamplers that ‘learn to zoom’ on salient image regions, reducing compute while retaining task-relevant image information. However, for tasks with spatial labels (such as 2D/3D object detection and semantic segmentation), such distortions may harm performance. In this work (LZU), we ‘learn to zoom’ in on the input image, compute spatial features, and then ‘unzoom’ to revert any deformations. To enable efficient and differentiable unzooming, we approximate the zooming warp with a piecewise bilinear mapping that is invertible. LZU can be applied to any task with 2D spatial input and any model with 2D spatial features, and we demonstrate this versatility by evaluating on a variety of tasks and datasets: object detection on Argoverse-HD, semantic segmentation on Cityscapes, and monocular 3D object detection on nuScenes. Interestingly, we observe boosts in performance even when high-resolution sensor data is unavailable, implying that LZU can be used to ‘learn to upsample’ as well.
arxiv情報
著者 | Chittesh Thavamani,Mengtian Li,Francesco Ferroni,Deva Ramanan |
発行日 | 2023-03-27 17:03:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google