Task-driven Compression for Collision Encoding based on Depth Images

要約

この論文は、深度画像の積極的なタスク駆動型圧縮と、ロボット システムの衝突予測に合わせた画像としてのエンコードのための新しい学習ベースの方法に貢献します。
深度画像で表現される障害物を適切に「膨張」させ、与えられた光線に沿ってロボットが衝突せずに横断できる距離を取得するために、ロボットのサイズを考慮した新しい 3D 画像処理方法論が提案されています。
カメラ錐台内。
このような深度画像と衝突画像のペアは、変分オートエンコーダーのアーキテクチャに従うニューラル ネットワークをトレーニングするために使用され、元の深度画像内の情報を圧縮および変換して、特定の深度画像の衝突情報をエンコードする潜在表現を導出します。

私たちが提案するタスク駆動型符号化手法を古典的なタスク非依存手法と比較し、極低次元潜在空間からの衝突画像予測タスクに対して優れた性能を実証します。
一連の比較研究により、提案されたアプローチは、4050:1 もの高い圧縮率で、長距離に薄い障害物がある複雑なシーンからの深度画像と衝突画像のタプルを従来の方法よりもエンコードできることが示されています。

要約(オリジナル)

This paper contributes a novel learning-based method for aggressive task-driven compression of depth images and their encoding as images tailored to collision prediction for robotic systems. A novel 3D image processing methodology is proposed that accounts for the robot’s size in order to appropriately ‘inflate’ the obstacles represented in the depth image and thus obtain the distance that can be traversed by the robot in a collision-free manner along any given ray within the camera frustum. Such depth-and-collision image pairs are used to train a neural network that follows the architecture of Variational Autoencoders to compress-and-transform the information in the original depth image to derive a latent representation that encodes the collision information for the given depth image. We compare our proposed task-driven encoding method with classical task-agnostic methods and demonstrate superior performance for the task of collision image prediction from extremely low-dimensional latent spaces. A set of comparative studies show that the proposed approach is capable of encoding depth image-and-collision image tuples from complex scenes with thin obstacles at long distances better than the classical methods at compression ratios as high as 4050:1.

arxiv情報

著者 Mihir Kulkarni,Kostas Alexis
発行日 2023-09-11 08:16:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク