Enhancing Embodied Object Detection through Language-Image Pre-training and Implicit Object Memory

要約

深層学習と大規模な言語画像トレーニングにより、多様な環境や意味クラスによく一般化できる画像オブジェクト検出器が生成されました。
ただし、インターネット データでトレーニングされた単一画像の物体検出器は、ロボット工学に固有の具体化された条件に最適に調整されていません。
代わりに、ロボットは、深さ、位置特定、時間相関を含む複雑なマルチモーダル データ ストリームから物体を検出する必要があり、このタスクは具体化された物体検出と呼ばれます。
このような具体化されたデータ ストリームを活用するために、ビデオ オブジェクト検出 (VOD) やセマンティック マッピングなどのパラダイムが提案されていますが、既存の研究では、言語と画像のトレーニングを使用してパフォーマンスを向上させることはできません。
これに応じて、言語画像データを使用して事前トレーニングされた画像オブジェクト検出器を拡張して、具体化されたオブジェクト検出を実行する方法を調査します。
我々は、射影幾何学を使用して、長い時間的範囲にわたって検出された物体の特徴を集約する、新しい暗黙的な物体メモリを提案します。
メモリに蓄積された空間的および時間的情報は、ベース検出器の画像特徴を強化するために使用されます。
さまざまな屋内シーンからサンプリングされた具体化されたデータ ストリームでテストした場合、私たちのアプローチはベース オブジェクト検出器を 3.09 mAP 改善し、VOD およびセマンティック マッピング用に設計された代替外部メモリを上回りました。
また、私たちの方法は、言語画像データに関する最初のトレーニングを行わずに具体化されたオブジェクト検出を実行するベースラインと比較して 16.90 mAP の大幅な改善を示しており、実世界の展開で経験するセンサー ノイズやドメイン シフトに対して堅牢です。

要約(オリジナル)

Deep-learning and large scale language-image training have produced image object detectors that generalise well to diverse environments and semantic classes. However, single-image object detectors trained on internet data are not optimally tailored for the embodied conditions inherent in robotics. Instead, robots must detect objects from complex multi-modal data streams involving depth, localisation and temporal correlation, a task termed embodied object detection. Paradigms such as Video Object Detection (VOD) and Semantic Mapping have been proposed to leverage such embodied data streams, but existing work fails to enhance performance using language-image training. In response, we investigate how an image object detector pre-trained using language-image data can be extended to perform embodied object detection. We propose a novel implicit object memory that uses projective geometry to aggregate the features of detected objects across long temporal horizons. The spatial and temporal information accumulated in memory is then used to enhance the image features of the base detector. When tested on embodied data streams sampled from diverse indoor scenes, our approach improves the base object detector by 3.09 mAP, outperforming alternative external memories designed for VOD and Semantic Mapping. Our method also shows a significant improvement of 16.90 mAP relative to baselines that perform embodied object detection without first training on language-image data, and is robust to sensor noise and domain shift experienced in real-world deployment.

arxiv情報

著者 Nicolas Harvey Chapman,Feras Dayoub,Will Browne,Chris Lehnert
発行日 2024-02-06 05:32:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク