t-READi: Transformer-Powered Robust and Efficient Multimodal Inference for Autonomous Driving

要約

自動運転車 (AV) によるマルチモーダル センサー (カメラ、ライダー、レーダーなど) の幅広い採用を考慮すると、その出力を融合して堅牢な認識を実現するための詳細な分析が不可欠になります。
しかし、既存の融合手法では、i) すべての入力に対する同様のデータ分布、ii) すべてのセンサーに対する一定の可用性という 2 つの仮定が、実際にはほとんど当てはまらないことがよくあります。
たとえば、ライダーにはさまざまな解像度があり、レーダーの故障が発生する可能性があるため、そのような変動は多くの場合、核融合における重大なパフォーマンスの低下につながります。
この目的を達成するために、マルチモーダルな感覚データの変動に適応し、堅牢で効率的な知覚を可能にする適応推論システムである tREADi を紹介します。
t-READi は、変動に敏感でありながら構造固有のモデル パラメーターを識別します。
次に、これらのパラメータのみを適応させ、残りはそのままにします。
t-READi はまた、クロスモダリティ対比学習法を活用して、モダリティの欠落による損失を補います。
どちらの機能も、既存のマルチモーダルディープフュージョン手法との互換性を維持するために実装されています。
広範な実験により、現状のアプローチと比較して、t-READi は平均推論精度を 6% 以上向上させるだけでなく、最悪の場合でもわずか 5% の余分なメモリ オーバーヘッドのコストで推論レイテンシをほぼ 15 倍削減できることが明らかに示されています。
現実的なデータとモーダル変動の下でのケース。

要約(オリジナル)

Given the wide adoption of multimodal sensors (e.g., camera, lidar, radar) by autonomous vehicles (AVs), deep analytics to fuse their outputs for a robust perception become imperative. However, existing fusion methods often make two assumptions rarely holding in practice: i) similar data distributions for all inputs and ii) constant availability for all sensors. Because, for example, lidars have various resolutions and failures of radars may occur, such variability often results in significant performance degradation in fusion. To this end, we present tREADi, an adaptive inference system that accommodates the variability of multimodal sensory data and thus enables robust and efficient perception. t-READi identifies variation-sensitive yet structure-specific model parameters; it then adapts only these parameters while keeping the rest intact. t-READi also leverages a cross-modality contrastive learning method to compensate for the loss from missing modalities. Both functions are implemented to maintain compatibility with existing multimodal deep fusion methods. The extensive experiments evidently demonstrate that compared with the status quo approaches, t-READi not only improves the average inference accuracy by more than 6% but also reduces the inference latency by almost 15x with the cost of only 5% extra memory overhead in the worst case under realistic data and modal variations.

arxiv情報

著者 Pengfei Hu,Yuhang Qian,Tianyue Zheng,Ang Li,Zhe Chen,Yue Gao,Xiuzhen Cheng,Jun Luo
発行日 2024-10-17 11:14:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.DC, cs.LG, cs.RO パーマリンク