要約
近年、セマンティック セグメンテーションのための分布外 (OoD) 検出に関する研究は、主に道路シーン、つまりセマンティックな多様性が制限された領域に焦点を当ててきました。
この研究では、この制約に挑戦し、このタスクの領域を一般的な自然画像に拡張します。
この目的を達成するために、1. ADE20k データセットに基づいており、意味論的多様性が高い多様なドメインの画像を含む ADE-OoD ベンチマーク、および 2. OoD 検出に拡散スコア マッチングを使用する新しいアプローチ (DOoD)
) 増加した意味論的多様性に対して堅牢です。
ADE-OoD は屋内および屋外の画像を特徴とし、150 のセマンティック カテゴリを配布中として定義し、さまざまな OoD オブジェクトを含みます。
DOoD の場合、セマンティックなディストリビューション内埋め込みで MLP アーキテクチャを使用して拡散モデルをトレーニングし、スコア マッチング解釈に基づいて推論時にピクセル単位の OoD スコアを計算します。
一般的な道路シーンの OoD ベンチマークでは、DOoD は、トレーニングに外れ値を使用したり、データ ドメインに関する仮定を作成したりすることなく、最先端技術と同等以上のパフォーマンスを発揮します。
ADE-OoD では、DOoD は以前のアプローチよりも優れていますが、将来の改善の余地が多く残されています。
要約(オリジナル)
In recent years, research on out-of-distribution (OoD) detection for semantic segmentation has mainly focused on road scenes — a domain with a constrained amount of semantic diversity. In this work, we challenge this constraint and extend the domain of this task to general natural images. To this end, we introduce: 1. the ADE-OoD benchmark, which is based on the ADE20k dataset and includes images from diverse domains with a high semantic diversity, and 2. a novel approach that uses Diffusion score matching for OoD detection (DOoD) and is robust to the increased semantic diversity. ADE-OoD features indoor and outdoor images, defines 150 semantic categories as in-distribution, and contains a variety of OoD objects. For DOoD, we train a diffusion model with an MLP architecture on semantic in-distribution embeddings and build on the score matching interpretation to compute pixel-wise OoD scores at inference time. On common road scene OoD benchmarks, DOoD performs on par or better than the state of the art, without using outliers for training or making assumptions about the data domain. On ADE-OoD, DOoD outperforms previous approaches, but leaves much room for future improvements.
arxiv情報
著者 | Silvio Galesso,Philipp Schröppel,Hssan Driss,Thomas Brox |
発行日 | 2024-07-22 15:41:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google