A Light-Weight Framework for Open-Set Object Detection with Decoupled Feature Alignment in Joint Space

要約

オープンセットオブジェクト検出 (OSOD) は、非構造化環境でのロボット操作に非常に望ましいものです。
ただし、既存の OSOD 手法は、高い計算負荷と複雑な展開により、ロボット アプリケーションの要件を満たせないことがよくあります。
この問題に対処するために、この論文では、Decoupled OSOD (DOSOD) と呼ばれる軽量フレームワークを提案します。これは、ロボット システムでリアルタイム OSOD タスクをサポートする実用的で効率の高いソリューションです。
具体的には、DOSOD は、ビジョン言語モデル (VLM) と検出器を統合することにより、YOLO-World パイプラインに基づいて構築されています。
マルチレイヤー パーセプトロン (MLP) アダプターは、VLM によって抽出されたテキスト埋め込みを結合空間に変換するために開発されており、検出器はその中でクラスに依存しない提案の領域表現を学習します。
クロスモダリティ特徴は関節空間内で直接位置合わせされ、複雑な特徴の相互作用を回避し、それによって計算効率を向上させます。
DOSOD は、テスト段階では従来のクローズドセット検出器と同様に動作し、クローズドセット検出とオープンセット検出の間のギャップを効果的に橋渡しします。
ベースラインの YOLO-World と比較して、提案された DOSOD は、同等の精度を維持しながら、リアルタイム パフォーマンスを大幅に向上させます。
わずかな DOSOD-S モデルは、LVIS で同様のバックボーンを使用した場合、YOLO-World-v1-S の場合は $26.2\%$、YOLO-World-v2-S の場合は $22.7\%$ であるのに対し、$26.7\%$ の固定 AP を達成します。
最小限のデータセット。
一方、DOSOD-S の FPS は、YOLO-World-v1-S より $57.1\%$ 高く、YOLO-World-v2-S より $29.6\%$ 高くなります。
一方、DOSOD モデルがエッジ デバイスの展開を容易にすることを実証します。
コードとモデルは https://github.com/D-Robotics-AI-Lab/DOSOD で公開されています。

要約(オリジナル)

Open-set object detection (OSOD) is highly desirable for robotic manipulation in unstructured environments. However, existing OSOD methods often fail to meet the requirements of robotic applications due to their high computational burden and complex deployment. To address this issue, this paper proposes a light-weight framework called Decoupled OSOD (DOSOD), which is a practical and highly efficient solution to support real-time OSOD tasks in robotic systems. Specifically, DOSOD builds upon the YOLO-World pipeline by integrating a vision-language model (VLM) with a detector. A Multilayer Perceptron (MLP) adaptor is developed to transform text embeddings extracted by the VLM into a joint space, within which the detector learns the region representations of class-agnostic proposals. Cross-modality features are directly aligned in the joint space, avoiding the complex feature interactions and thereby improving computational efficiency. DOSOD operates like a traditional closed-set detector during the testing phase, effectively bridging the gap between closed-set and open-set detection. Compared to the baseline YOLO-World, the proposed DOSOD significantly enhances real-time performance while maintaining comparable accuracy. The slight DOSOD-S model achieves a Fixed AP of $26.7\%$, compared to $26.2\%$ for YOLO-World-v1-S and $22.7\%$ for YOLO-World-v2-S, using similar backbones on the LVIS minival dataset. Meanwhile, the FPS of DOSOD-S is $57.1\%$ higher than YOLO-World-v1-S and $29.6\%$ higher than YOLO-World-v2-S. Meanwhile, we demonstrate that the DOSOD model facilitates the deployment of edge devices. The codes and models are publicly available at https://github.com/D-Robotics-AI-Lab/DOSOD.

arxiv情報

著者 Yonghao He,Hu Su,Haiyong Yu,Cong Yang,Wei Sui,Cong Wang,Song Liu
発行日 2024-12-19 09:32:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク