LidarCLIP or: How I Learned to Talk to Point Clouds

要約

テキストと画像を関連付ける研究では、最近、CLIP、DALL-E 2、Stable Diffusion などのモデルでいくつかのブレークスルーが見られました。
ただし、テキストと LIDAR データなどの他の視覚的モダリティとの接続は、テキスト LIDAR データセットの欠如によって禁止されており、あまり注目されていません。
この作業では、自動車の点群から既存の CLIP 埋め込み空間へのマッピングである LidarCLIP を提案します。
画像と LIDAR のペアを使用して、画像 CLIP 埋め込みを使用してポイント クラウド エンコーダーを監視し、テキストと LIDAR データを画像ドメインと効果的に関連付けます。
Lidar ベースの検索は一般的に画像ベースの検索と同等ですが、補完的な長所と短所があることを実証することにより、LidarCLIP の有効性を示します。
画像とライダーの機能を組み合わせることで、単一モダリティの両方の方法を改善し、不利なセンサー条件下での困難な検出シナリオの対象を絞った検索を可能にします。
また、ゼロ ショット分類についても調査し、LidarCLIP が点群に CLIP を使用する既存の試みよりも大幅に優れていることを示します。
最後に、CLIP との互換性を活用して、追加のトレーニングなしで、点群のキャプションや LIDAR から画像への生成など、さまざまなアプリケーションを探索します。
コードと事前トレーニング済みのモデルは、https://github.com/atonderski/lidarclip で入手できます。

要約(オリジナル)

Research connecting text and images has recently seen several breakthroughs, with models like CLIP, DALL-E 2, and Stable Diffusion. However, the connection between text and other visual modalities, such as lidar data, has received less attention, prohibited by the lack of text-lidar datasets. In this work, we propose LidarCLIP, a mapping from automotive point clouds to a pre-existing CLIP embedding space. Using image-lidar pairs, we supervise a point cloud encoder with the image CLIP embeddings, effectively relating text and lidar data with the image domain as an intermediary. We show the effectiveness of LidarCLIP by demonstrating that lidar-based retrieval is generally on par with image-based retrieval, but with complementary strengths and weaknesses. By combining image and lidar features, we improve upon both single-modality methods and enable a targeted search for challenging detection scenarios under adverse sensor conditions. We also explore zero-shot classification and show that LidarCLIP outperforms existing attempts to use CLIP for point clouds by a large margin. Finally, we leverage our compatibility with CLIP to explore a range of applications, such as point cloud captioning and lidar-to-image generation, without any additional training. Code and pre-trained models are available at https://github.com/atonderski/lidarclip.

arxiv情報

著者 Georg Hess,Adam Tonderski,Christoffer Petersson,Kalle Åström,Lennart Svensson
発行日 2023-03-09 16:00:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク