Latent Noise Segmentation: How Neural Noise Leads to the Emergence of Segmentation and Grouping

要約

オブジェクトのセグメンテーションなどの一般的なタスクで人間レベルのパフォーマンスを実現するディープ ニューラル ネットワーク (DNN) には、通常、教師ありラベルが必要です。
対照的に、人間はこれらの作業を監督なしで難なく実行できます。
これを達成するために、人間の視覚システムは知覚的なグループ化を利用します。
知覚的なグループ化が教師なしでどのように発生するかを理解することは、視覚システムのモデルとコンピューター ビジョン モデルの両方を改善するために重要です。
この研究では、教師なしの知覚グループ化とセグメンテーションに対する直観に反するアプローチを提案します。つまり、それらは神経ノイズにもかかわらずではなく、神経ノイズによって発生するというものです。
私たちは、(1) 現実的な仮定の下で、ニューラル ノイズを使用してオブジェクトを相互に分離できることを数学的に実証し、(2) DNN にノイズを追加すると、セグメンテーション ラベルでトレーニングされていないネットワークでも画像をセグメント化できることを示します。

興味深いことに、(3) ノイズを使用してオブジェクトをセグメント化すると、人間で観察される知覚的なグループ化現象と一致するセグメント化パフォーマンスが得られることがわかりました。
グッド ゲシュタルト (GG) データセット、つまり知覚のグループ化を特別にテストするために設計された 6 つのデータセットを紹介し、DNN モデルが錯視的な輪郭、閉鎖性、連続性、近接性、遮蔽などの人間の知覚における多くの重要な現象を再現することを示します。
最後に、(4) さまざまな大きさのノイズに対する DNN の感度を分析することにより、この方法の生態学的妥当性を実証します。
一部のモデルのバリアントは、著しく低いレベルのニューラル ノイズ ($\sigma<0.001$) で一貫して成功しており、驚くべきことに、この方法でセグメント化するのに必要なサンプルはほんの一握りであることがわかりました。 まとめると、私たちの結果は、ほとんど仮定を必要としない新しい教師なしセグメンテーション方法、知覚グループ化の形成に関する新しい説明、および視覚システムにおける神経ノイズの潜在的な利点を示唆しています。

要約(オリジナル)

Deep Neural Networks (DNNs) that achieve human-level performance in general tasks like object segmentation typically require supervised labels. In contrast, humans are able to perform these tasks effortlessly without supervision. To accomplish this, the human visual system makes use of perceptual grouping. Understanding how perceptual grouping arises in an unsupervised manner is critical for improving both models of the visual system, and computer vision models. In this work, we propose a counterintuitive approach to unsupervised perceptual grouping and segmentation: that they arise because of neural noise, rather than in spite of it. We (1) mathematically demonstrate that under realistic assumptions, neural noise can be used to separate objects from each other, and (2) show that adding noise in a DNN enables the network to segment images even though it was never trained on any segmentation labels. Interestingly, we find that (3) segmenting objects using noise results in segmentation performance that aligns with the perceptual grouping phenomena observed in humans. We introduce the Good Gestalt (GG) datasets — six datasets designed to specifically test perceptual grouping, and show that our DNN models reproduce many important phenomena in human perception, such as illusory contours, closure, continuity, proximity, and occlusion. Finally, we (4) demonstrate the ecological plausibility of the method by analyzing the sensitivity of the DNN to different magnitudes of noise. We find that some model variants consistently succeed with remarkably low levels of neural noise ($\sigma<0.001$), and surprisingly, that segmenting this way requires as few as a handful of samples. Together, our results suggest a novel unsupervised segmentation method requiring few assumptions, a new explanation for the formation of perceptual grouping, and a potential benefit of neural noise in the visual system.

arxiv情報

著者 Ben Lonnqvist,Zhengqing Wu,Michael H. Herzog
発行日 2023-09-28 15:22:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク