要約
カプセルネットワーク(Hinton et al., 2018など参照)は、オブジェクトとそのパーツの関係に関する知識を符号化し、推論することを目的としている。本論文では、このようなデータに対する生成モデルを指定し、シーンにおける各モデルオブジェクトの変換、および観測されたパーツのオブジェクトへの割り当てを推測するための変分アルゴリズムを導出する。また、変分期待値最大化(Jordan et al., 1999)に基づき、オブジェクトモデルの学習アルゴリズムを導出する。また、Fischler and Bolles (1981)のRANSAC法に基づく代替推論アルゴリズムも研究する。これらの推論手法を、(i) 正方形や三角形などの複数の幾何学的オブジェクト(「星座」)から生成されたデータ、及び、(ii) 顔のパーツベースモデルからのデータに適用する。Kosiorekら(2019)による最近の研究は、この問題に取り組むためにstacked capsule autoencoders(SCAEs)を介したamortized inferenceを用いている — 我々の結果は、比較を行うことができるところ(constellationsデータについて)我々は彼らを著しく上回ることを示している。
要約(オリジナル)
Capsule networks (see e.g. Hinton et al., 2018) aim to encode knowledge of and reason about the relationship between an object and its parts. In this paper we specify a generative model for such data, and derive a variational algorithm for inferring the transformation of each model object in a scene, and the assignments of observed parts to the objects. We derive a learning algorithm for the object models, based on variational expectation maximization (Jordan et al., 1999). We also study an alternative inference algorithm based on the RANSAC method of Fischler and Bolles (1981). We apply these inference methods to (i) data generated from multiple geometric objects like squares and triangles (‘constellations’), and (ii) data from a parts-based model of faces. Recent work by Kosiorek et al. (2019) has used amortized inference via stacked capsule autoencoders (SCAEs) to tackle this problem — our results show that we significantly outperform them where we can make comparisons (on the constellations data).
arxiv情報
著者 | Alfredo Nazabal,Nikolaos Tsagkas,Christopher K. I. Williams |
発行日 | 2022-09-07 13:05:47+00:00 |
arxivサイト | arxiv_id(pdf) |