Towards flexible perception with visual memory

要約

ニューラル ネットワークのトレーニングは、知識を石に刻み込むようなモノリシックな作業です。プロセスが完了すると、すべての情報がネットワークの重み全体に分散されるため、ネットワーク内の知識を編集することはほぼ不可能になります。
ここでは、ディープ ニューラル ネットワークの表現力とデータベースの柔軟性を組み合わせることで、シンプルで説得力のある代替案を検討します。
画像分類のタスクを画像の類似性 (事前にトレーニングされた埋め込みから) と検索 (知識データベースからの高速最近傍検索による) に分解し、次の主要な機能を持つシンプルで柔軟な視覚記憶を構築します。 (1.)
個々のサンプルからクラス全体や数十億規模のデータまで、規模を超えて柔軟にデータを追加できる機能。
(2.) 未学習およびメモリプルーニングを通じてデータを削除する機能。
(3.) 動作を制御するために介入できる、解釈可能な意思決定メカニズム。
これらの機能を総合すると、明示的な視覚記憶の利点を包括的に示します。
私たちは、これが知識を「石」の重さに刻むことを超えて、深視力モデルでどのように表現されるべきかについての議論に貢献できることを願っています。

要約(オリジナル)

Training a neural network is a monolithic endeavor, akin to carving knowledge into stone: once the process is completed, editing the knowledge in a network is nearly impossible, since all information is distributed across the network’s weights. We here explore a simple, compelling alternative by marrying the representational power of deep neural networks with the flexibility of a database. Decomposing the task of image classification into image similarity (from a pre-trained embedding) and search (via fast nearest neighbor retrieval from a knowledge database), we build a simple and flexible visual memory that has the following key capabilities: (1.) The ability to flexibly add data across scales: from individual samples all the way to entire classes and billion-scale data; (2.) The ability to remove data through unlearning and memory pruning; (3.) An interpretable decision-mechanism on which we can intervene to control its behavior. Taken together, these capabilities comprehensively demonstrate the benefits of an explicit visual memory. We hope that it might contribute to a conversation on how knowledge should be represented in deep vision models — beyond carving it in ‘stone’ weights.

arxiv情報

著者 Robert Geirhos,Priyank Jaini,Austin Stone,Sourabh Medapati,Xi Yi,George Toderici,Abhijit Ogale,Jonathon Shlens
発行日 2024-09-17 13:35:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク