要約
センサー フュージョンは、自動運転やロボット工学など、多くの知覚システムにおいて重要なトピックです。
データセットのリーダーボードによると、生のセンサー データから特徴を抽出するトランスフォーマー ベースの検出ヘッドと CNN ベースの特徴エンコーダーは、最高のパフォーマンスを発揮するセンサー フュージョン 3D 検出フレームワークの 1 つとして浮上しています。
この作業では、主にセンサーフュージョンに焦点を当てた、最近のトランスベースの3Dオブジェクト検出タスクの詳細な文献調査を提供します。
また、Vision トランスフォーマー (ViT) の基本についても簡単に説明します。
さらに、自動運転のためのセンサー融合のための非変圧器ベースのあまり支配的でない方法のいくつかについても簡単に説明します。
結論として、センサーフュージョンの傾向を要約し、将来の研究を追跡し、刺激します。
より更新された概要は、https://github.com/ApoorvRoboticist/Transformers-Sensor-Fusion にあります。
要約(オリジナル)
Sensor fusion is an essential topic in many perception systems, such as autonomous driving and robotics. Transformers-based detection head and CNN-based feature encoder to extract features from raw sensor-data has emerged as one of the best performing sensor-fusion 3D-detection-framework, according to the dataset leaderboards. In this work we provide an in-depth literature survey of transformer based 3D-object detection task in the recent past, primarily focusing on the sensor fusion. We also briefly go through the Vision transformers (ViT) basics, so that readers can easily follow through the paper. Moreover, we also briefly go through few of the non-transformer based less-dominant methods for sensor fusion for autonomous driving. In conclusion we summarize with sensor-fusion trends to follow and provoke future research. More updated summary can be found at: https://github.com/ApoorvRoboticist/Transformers-Sensor-Fusion
arxiv情報
著者 | Apoorv Singh |
発行日 | 2023-02-22 16:28:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google