Towards Unsupervised Open World Semantic Segmentation

要約

画像のセマンティック セグメンテーションでは、最先端のディープ ニューラル ネットワーク (DNN) は、そのタスクがクローズド セットのクラスに制限されている場合、高いセグメンテーション精度を達成します。
ただし、現時点では、DNN がオープン ワールドで動作する能力は限られています。オープン ワールドでは、未知のオブジェクトに属するピクセルを識別し、最終的には新しいクラスを段階的に学習する必要があります。
人間には、「それが何かはわかりませんが、そのようなものはすでに見たことがあります」と言う能力があります。
したがって、そのような漸進的学習タスクを教師なしで実行することが望ましい。
視覚的類似性に基づいて未知のオブジェクトをクラスター化する方法を紹介します。
これらのクラスターは、新しいクラスを定義するために利用され、教師なし増分学習のトレーニング データとして機能します。
より正確には、予測されたセマンティック セグメンテーションの連結コンポーネントは、セグメンテーション品質推定によって評価されます。
推定された予測品質が低い連結成分は、後続のクラスタリングの候補です。
さらに、コンポーネントごとの品質評価により、未知のオブジェクトを含む可能性のある画像領域の予測セグメンテーション マスクを取得できます。
このようなマスクのそれぞれのピクセルは疑似ラベルが付けられ、その後 DNN の再トレーニングに使用されます。つまり、人間によって生成されたグラウンド トゥルースは使用されません。
私たちの実験では、グラウンド トゥルースにアクセスせず、データがほとんどない場合でも、DNN のクラス空間を新しいクラスによって拡張し、かなりのセグメンテーション精度を達成できることを示しています。

要約(オリジナル)

For the semantic segmentation of images, state-of-the-art deep neural networks (DNNs) achieve high segmentation accuracy if that task is restricted to a closed set of classes. However, as of now DNNs have limited ability to operate in an open world, where they are tasked to identify pixels belonging to unknown objects and eventually to learn novel classes, incrementally. Humans have the capability to say: I don’t know what that is, but I’ve already seen something like that. Therefore, it is desirable to perform such an incremental learning task in an unsupervised fashion. We introduce a method where unknown objects are clustered based on visual similarity. Those clusters are utilized to define new classes and serve as training data for unsupervised incremental learning. More precisely, the connected components of a predicted semantic segmentation are assessed by a segmentation quality estimate. connected components with a low estimated prediction quality are candidates for a subsequent clustering. Additionally, the component-wise quality assessment allows for obtaining predicted segmentation masks for the image regions potentially containing unknown objects. The respective pixels of such masks are pseudo-labeled and afterwards used for re-training the DNN, i.e., without the use of ground truth generated by humans. In our experiments we demonstrate that, without access to ground truth and even with few data, a DNN’s class space can be extended by a novel class, achieving considerable segmentation accuracy.

arxiv情報

著者 Svenja Uhlemeyer,Matthias Rottmann,Hanno Gottschalk
発行日 2022-09-12 14:35:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク