要約
ビッグデータと大規模モデルの時代において、マルチモーダルデータの自動アノテーション機能は、自動運転や身体型 AI などの現実世界の AI 駆動アプリケーションにとって非常に重要です。
従来のクローズドセットのアノテーションとは異なり、オープン語彙のアノテーションは人間レベルの認識能力を達成するために不可欠です。
ただし、マルチモーダル 3D データ用のオープンな語彙自動ラベル付けシステムはほとんどありません。
このペーパーでは、ビジョンおよび点群データの 2D マスク、3D マスク、および 3D 境界ボックスの注釈を自動的に生成できる、オープンソースのオープン語彙自動ラベル付けシステムである OpenAnnotate3D を紹介します。
私たちのシステムは、大規模言語モデル (LLM) の思考連鎖機能とビジョン言語モデル (VLM) のクロスモダリティ機能を統合しています。
私たちの知る限り、OpenAnnotate3D は、オープン語彙のマルチモーダル 3D 自動ラベル付けの先駆的な作品の 1 つです。
私たちは、公開データセットと社内の両方の実世界データセットに対して包括的な評価を実施しています。その結果、システムが手動アノテーションと比較してアノテーション効率を大幅に向上させながら、正確なオープン語彙の自動アノテーション結果を提供できることが実証されました。
要約(オリジナル)
In the era of big data and large models, automatic annotating functions for multi-modal data are of great significance for real-world AI-driven applications, such as autonomous driving and embodied AI. Unlike traditional closed-set annotation, open-vocabulary annotation is essential to achieve human-level cognition capability. However, there are few open-vocabulary auto-labeling systems for multi-modal 3D data. In this paper, we introduce OpenAnnotate3D, an open-source open-vocabulary auto-labeling system that can automatically generate 2D masks, 3D masks, and 3D bounding box annotations for vision and point cloud data. Our system integrates the chain-of-thought capabilities of Large Language Models (LLMs) and the cross-modality capabilities of vision-language models (VLMs). To the best of our knowledge, OpenAnnotate3D is one of the pioneering works for open-vocabulary multi-modal 3D auto-labeling. We conduct comprehensive evaluations on both public and in-house real-world datasets, which demonstrate that the system significantly improves annotation efficiency compared to manual annotation while providing accurate open-vocabulary auto-annotating results.
arxiv情報
著者 | Yijie Zhou,Likun Cai,Xianhui Cheng,Zhongxue Gan,Xiangyang Xue,Wenchao Ding |
発行日 | 2023-10-20 10:12:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google