LidarCLIP or: How I Learned to Talk to Point Clouds

要約

タイトル:LidarCLIPまたは:点群に話しかける方法を学びました

要約:
– CLIP、DALL-E 2、Stable Diffusionといったモデルのように、テキストと画像をつなぐ研究は近年多くの突破口を見ています。
– しかしながら、Lidarデータのような他の視覚的モダリティとテキストのつながりは、テキスト-Lidarデータのデータセットの不足によって妨げられています。
– LidarCLIPを提案し、Lidarデータを既存のCLIP埋め込み空間にマッピングします。
– 画像-Lidarペアを使用して、画像のCLIP埋め込みを使って点群エンコーダーを監督し、効果的にテキストとLidarデータを中間の画像領域と関連付けます。
– LidarCLIPの有効性を示し、Lidarに基づく検索が一般的に画像に基づく検索と同等であることを示しますが、相補的な強みと弱みを持っています。画像とLidarの特徴を組み合わせることで、単一のモダリティの方法を改善し、逆境下の難しい検出シナリオのターゲット検索を可能にします。
– 我々はまた、零-shot分類を探索し、LidarCLIPが既存のCLIPを用いた点群の試みをはるかに上回ることを示します。
– 最後に、CLIPとの互換性を活用して、追加のトレーニングなしで、LidarキャプショニングやLidar-to-image生成など、多岐にわたるアプリケーションを探索します。
– コードと事前学習済みモデルはhttps://github.com/atonderski/lidarclipで利用可能です。

要約(オリジナル)

Research connecting text and images has recently seen several breakthroughs, with models like CLIP, DALL-E 2, and Stable Diffusion. However, the connection between text and other visual modalities, such as lidar data, has received less attention, prohibited by the lack of text-lidar datasets. In this work, we propose LidarCLIP, a mapping from automotive point clouds to a pre-existing CLIP embedding space. Using image-lidar pairs, we supervise a point cloud encoder with the image CLIP embeddings, effectively relating text and lidar data with the image domain as an intermediary. We show the effectiveness of LidarCLIP by demonstrating that lidar-based retrieval is generally on par with image-based retrieval, but with complementary strengths and weaknesses. By combining image and lidar features, we improve upon both single-modality methods and enable a targeted search for challenging detection scenarios under adverse sensor conditions. We also explore zero-shot classification and show that LidarCLIP outperforms existing attempts to use CLIP for point clouds by a large margin. Finally, we leverage our compatibility with CLIP to explore a range of applications, such as point cloud captioning and lidar-to-image generation, without any additional training. Code and pre-trained models are available at https://github.com/atonderski/lidarclip.

arxiv情報

著者 Georg Hess,Adam Tonderski,Christoffer Petersson,Kalle Åström,Lennart Svensson
発行日 2023-05-02 13:53:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG パーマリンク