Depth Matters: Multimodal RGB-D Perception for Robust Autonomous Agents

要約

リアルタイムの制御決定を行うために純粋に認識に依存する自律エージェントは、効率的で堅牢なアーキテクチャを必要とします。
この作業では、深さ情報を使用してRGB入力を増強すると、RGBのみを使用するのと比較して、ステアリングコマンドを予測するエージェントの能力が大幅に向上することを実証します。
融合したRGB-D機能を活用して、シーケンシャルな意思決定を活用する軽量の再発コントローラーをベンチマークします。
モデルをトレーニングするために、物理的なステアリングホイールを介して専門のドライバーが制御する小規模な自動運転車を使用して高品質のデータを収集し、さまざまなレベルのステアリング難易度をキャプチャします。
多様な構成の下でトレーニングされたモデルは、実際のハードウェアに正常に展開されました。
具体的には、我々の調査結果は、深さデータの早期融合が非常に堅牢なコントローラーをもたらすことを明らかにしています。これは、タスクにネットワークの焦点を損なうことなく、フレームドロップとノイズレベルの増加でも効果的なままです。

要約(オリジナル)

Autonomous agents that rely purely on perception to make real-time control decisions require efficient and robust architectures. In this work, we demonstrate that augmenting RGB input with depth information significantly enhances our agents’ ability to predict steering commands compared to using RGB alone. We benchmark lightweight recurrent controllers that leverage the fused RGB-D features for sequential decision-making. To train our models, we collect high-quality data using a small-scale autonomous car controlled by an expert driver via a physical steering wheel, capturing varying levels of steering difficulty. Our models, trained under diverse configurations, were successfully deployed on real hardware. Specifically, our findings reveal that the early fusion of depth data results in a highly robust controller, which remains effective even with frame drops and increased noise levels, without compromising the network’s focus on the task.

arxiv情報

著者 Mihaela-Larisa Clement,Mónika Farsang,Felix Resch,Radu Grosu
発行日 2025-03-20 21:08:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク