Segment-Anything Models Achieve Zero-shot Robustness in Autonomous Driving

要約

セマンティック セグメンテーションは、自動運転における重要な認識タスクです。
敵対的な例によるリスクに悩まされています。
過去数年間で、ディープ ラーニングは、比較的少数のパラメーターを備えた畳み込みニューラル ネットワーク (CNN) モデルから、膨大な数のパラメーターを備えた基礎モデルへと徐々に移行してきました。
セグメントエニシング モデル (SAM) は、さまざまなタイプの画像を処理できる汎用画像セグメンテーション フレームワークであり、特定のオブジェクトについてトレーニングする必要がなく、画像内の任意のオブジェクトを認識してセグメント化できます。
これは、セマンティック セグメンテーション、オブジェクト検出、追跡などのさまざまな下流タスクを処理できる統合モデルです。
自動運転のためのセマンティック セグメンテーションのタスクでは、SAM のゼロショット攻撃に対する堅牢性を研究することが重要です。
したがって、追加のトレーニングを必要とせずに、SAM の堅牢性に関する体系的な実証研究を提供します。
実験結果に基づくと、ブラック ボックス破損およびホワイト ボックス敵対的攻撃の下での SAM のゼロショット敵対的堅牢性は、追加のトレーニングを必要としなくても許容可能です。
この研究の発見は、巨大なモデルパラメータと膨大な量のトレーニングデータが創発現象をもたらし、それが敵対的堅牢性の保証を構築するという点で洞察力に富んでいます。
SAM は、汎用人工知能 (AGI) パイプラインの初期のプロトタイプと見なすことができるビジョン基盤モデルです。
このようなパイプラインでは、統合モデルでさまざまなタスクを処理できます。
したがって、この研究は、視覚基盤モデルが安全な自動運転に与える影響を検証するだけでなく、信頼できる AGI の開発に関する展望も提供します。
コードは https://github.com/momo1986/robust_sam_iv から入手できます。

要約(オリジナル)

Semantic segmentation is a significant perception task in autonomous driving. It suffers from the risks of adversarial examples. In the past few years, deep learning has gradually transitioned from convolutional neural network (CNN) models with a relatively small number of parameters to foundation models with a huge number of parameters. The segment-anything model (SAM) is a generalized image segmentation framework that is capable of handling various types of images and is able to recognize and segment arbitrary objects in an image without the need to train on a specific object. It is a unified model that can handle diverse downstream tasks, including semantic segmentation, object detection, and tracking. In the task of semantic segmentation for autonomous driving, it is significant to study the zero-shot adversarial robustness of SAM. Therefore, we deliver a systematic empirical study on the robustness of SAM without additional training. Based on the experimental results, the zero-shot adversarial robustness of the SAM under the black-box corruptions and white-box adversarial attacks is acceptable, even without the need for additional training. The finding of this study is insightful in that the gigantic model parameters and huge amounts of training data lead to the phenomenon of emergence, which builds a guarantee of adversarial robustness. SAM is a vision foundation model that can be regarded as an early prototype of an artificial general intelligence (AGI) pipeline. In such a pipeline, a unified model can handle diverse tasks. Therefore, this research not only inspects the impact of vision foundation models on safe autonomous driving but also provides a perspective on developing trustworthy AGI. The code is available at: https://github.com/momo1986/robust_sam_iv.

arxiv情報

著者 Jun Yan,Pengyu Wang,Danni Wang,Weiquan Huang,Daniel Watzenig,Huilin Yin
発行日 2024-10-01 07:50:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク