Towards flexible perception with visual memory


ニューラル ネットワークのトレーニングは、知識を石に刻み込むようなモノリシックな作業です。プロセスが完了すると、すべての情報がネットワークの重み全体に分散されるため、ネットワーク内の知識を編集することはほぼ不可能になります。
ここでは、ディープ ニューラル ネットワークの表現力とデータベースの柔軟性を組み合わせることで、シンプルで説得力のある代替案を検討します。
画像分類のタスクを画像の類似性 (事前にトレーニングされた埋め込みから) と検索 (知識データベースからの高速最近傍検索による) に分解し、次の主要な機能を持つシンプルで柔軟な視覚記憶を構築します。 (1.)
(2.) 未学習およびメモリプルーニングを通じてデータを削除する機能。
(3.) 動作を制御するために介入できる、解釈可能な意思決定メカニズム。


Training a neural network is a monolithic endeavor, akin to carving knowledge into stone: once the process is completed, editing the knowledge in a network is nearly impossible, since all information is distributed across the network’s weights. We here explore a simple, compelling alternative by marrying the representational power of deep neural networks with the flexibility of a database. Decomposing the task of image classification into image similarity (from a pre-trained embedding) and search (via fast nearest neighbor retrieval from a knowledge database), we build a simple and flexible visual memory that has the following key capabilities: (1.) The ability to flexibly add data across scales: from individual samples all the way to entire classes and billion-scale data; (2.) The ability to remove data through unlearning and memory pruning; (3.) An interpretable decision-mechanism on which we can intervene to control its behavior. Taken together, these capabilities comprehensively demonstrate the benefits of an explicit visual memory. We hope that it might contribute to a conversation on how knowledge should be represented in deep vision models — beyond carving it in ‘stone’ weights.


著者 Robert Geirhos,Priyank Jaini,Austin Stone,Sourabh Medapati,Xi Yi,George Toderici,Abhijit Ogale,Jonathon Shlens
発行日 2024-09-17 13:35:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク