Modelling the Human Intuition to Complete the Missing Information in Images for Convolutional Neural Networks

要約

この研究では、直観をモデル化し、この形式主義を組み込んで畳み込みニューラル ネットワークのパフォーマンスを向上させることを試みます。
何十年にもわたる研究にもかかわらず、直感の原則にはあいまいさが残ります。
実験心理学では、人間の心の状態に依存するさまざまな種類の直観が明らかになります。
私たちは、視覚認知タスク中に不足している情報を補完するのに役立つ視覚的直観に焦点を当てます。
まず、データセットの画像内の視覚情報の量を徐々に減らすシナリオを設定し、CNN の精度への影響を調べます。
次に、ゲシュタルト理論を使用して視覚的直観のモデルを表現します。
この理論では、人間は潜在意識の経験に応じて一連のテンプレートを導き出すと主張しています。
脳は、シーン内にオクルージョンなどの情報が欠落していると判断すると、欠落している部分を最も類似した部分に置き換えることで瞬時に情報を完成させます。
ゲシュタルト理論に基づいて、視覚的直観を 2 つの層でモデル化します。
これらの層の詳細は本書全体に記載されています。
MNIST データセットを使用して、不足している情報を補完するために提案された直観モデルをテストします。
実験の結果、不完全な画像を使用する場合、拡張 CNN アーキテクチャは従来のモデルと比較して高いパフォーマンスを提供することが示されています。

要約(オリジナル)

In this study, we attempt to model intuition and incorporate this formalism to improve the performance of the Convolutional Neural Networks. Despite decades of research, ambiguities persist on principles of intuition. Experimental psychology reveals many types of intuition, which depend on state of the human mind. We focus on visual intuition, useful for completing missing information during visual cognitive tasks. First, we set up a scenario to gradually decrease the amount of visual information in the images of a dataset to examine its impact on CNN accuracy. Then, we represent a model for visual intuition using Gestalt theory. The theory claims that humans derive a set of templates according to their subconscious experiences. When the brain decides that there is missing information in a scene, such as occlusion, it instantaneously completes the information by replacing the missing parts with the most similar ones. Based upon Gestalt theory, we model the visual intuition, in two layers. Details of these layers are provided throughout the paper. We use the MNIST data set to test the suggested intuition model for completing the missing information. Experiments show that the augmented CNN architecture provides higher performances compared to the classic models when using incomplete images.

arxiv情報

著者 Robin Koç,Fatoş T. Yarman Vural
発行日 2024-07-12 13:05:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク