要約
OOD(Out-of-Distribution)検出は、自律走行において、学習ベースのコンポーネントが予期せぬ入力に遭遇したときに判断するために不可欠である。従来の検出器は、一般的に固定設定のエンコーダモデルを使用しているため、効果的なヒューマンインタラクション機能が欠けている。大規模な基礎モデルの台頭により、マルチモーダル入力は、人間の言語を潜在表現として取り込む可能性を提供し、それにより言語定義のOOD検出を可能にする。本論文では、マルチモーダルモデルCLIPによって符号化された画像とテキスト表現の余弦類似度を新たな表現として用い、視覚的異常検出に用いられる潜在的符号化の透明性と制御性を向上させる。我々は、ユーザーの立場から無意味な潜在的表現しか生成できない既存の事前訓練されたエンコーダと我々のアプローチを比較する。現実的な運転データを用いた実験により、言語ベースの潜在表現は、従来の視覚エンコーダの表現よりも性能が良く、標準的な表現と組み合わせた場合に検出性能の向上に役立つことが示された。
要約(オリジナル)
Out-of-distribution (OOD) detection is essential in autonomous driving, to determine when learning-based components encounter unexpected inputs. Traditional detectors typically use encoder models with fixed settings, thus lacking effective human interaction capabilities. With the rise of large foundation models, multimodal inputs offer the possibility of taking human language as a latent representation, thus enabling language-defined OOD detection. In this paper, we use the cosine similarity of image and text representations encoded by the multimodal model CLIP as a new representation to improve the transparency and controllability of latent encodings used for visual anomaly detection. We compare our approach with existing pre-trained encoders that can only produce latent representations that are meaningless from the user’s standpoint. Our experiments on realistic driving data show that the language-based latent representation performs better than the traditional representation of the vision encoder and helps improve the detection performance when combined with standard representations.
arxiv情報
著者 | Zhenjiang Mao,Dong-You Jhong,Ao Wang,Ivan Ruchkin |
発行日 | 2024-05-02 19:27:28+00:00 |
arxivサイト | arxiv_id(pdf) |