WildRefer: 3D Object Localization in Large-scale Dynamic Scenes with Multi-modal Visual Data and Natural Language

要約

タイトル:WildRefer:多様なモーダルのビジュアルデータと自然言語を用いた大規模な動的シーンにおける3Dオブジェクトローカライゼーション

要約:
– 大規模な動的シーンにおいて、自然言語の説明とオンラインで取得された多様なモーダルのビジュアルデータ(2D画像と3D LiDARポイントクラウド)に基づく3Dビジュアルグラウンディングのタスクを紹介します。
– 画像の外観特徴、ポイントクラウドの位置とジオメトリ特徴、連続した入力フレームの動的特徴を利用することで、言語の意味的特徴と一致させるためのWildReferという新しい方法を提案します。
– 特に、STReferとLifeReferという2つの革新的なデータセットを提供し、大規模な人間中心の日常生活シナリオに焦点を当て、豊富な3Dオブジェクトと自然言語の注釈を含んでいます。
– 当社のデータセットは、野生での3Dビジュアルグラウンディングの研究にとって重要であり、自動運転やサービスロボットの開発に大きな可能性を持っています。
– 大規模な比較と削除研究により、当社の方法が2つの提案されたデータセットにおいて最新の性能を発揮することが示されました。 コードとデータセットは、論文が公開されると共に公開されます。

要約(オリジナル)

We introduce the task of 3D visual grounding in large-scale dynamic scenes based on natural linguistic descriptions and online captured multi-modal visual data, including 2D images and 3D LiDAR point clouds. We present a novel method, WildRefer, for this task by fully utilizing the appearance features in images, the location and geometry features in point clouds, and the dynamic features in consecutive input frames to match the semantic features in language. In particular, we propose two novel datasets, STRefer and LifeRefer, which focus on large-scale human-centric daily-life scenarios with abundant 3D object and natural language annotations. Our datasets are significant for the research of 3D visual grounding in the wild and has huge potential to boost the development of autonomous driving and service robots. Extensive comparisons and ablation studies illustrate that our method achieves state-of-the-art performance on two proposed datasets. Code and dataset will be released when the paper is published.

arxiv情報

著者 Zhenxiang Lin,Xidong Peng,Peishan Cong,Yuenan Hou,Xinge Zhu,Sibei Yang,Yuexin Ma
発行日 2023-04-12 06:48:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク