要約
ほぼ全ての最先端の視覚モデルは、画像の回転に敏感である。既存の手法では、学習データを拡張して擬似的な不変性を学習することで、失われた誘導性バイアスを補うことが多い。このようなリソースが必要なデータ拡張処理と同時に、予測値の汎化もうまくいかないことがよくあります。畳み込みニューラルネットワークに固有の帰納的バイアスは、ピクセルグリッドの水平軸と垂直軸に平行に作用するカーネルを通して、並進の等価性を可能にする。しかし、この帰納的バイアスは回転の等価性を可能にしない。そこで我々は、回転共分散を本質的に取り込むために、放射状ビームサンプリング戦略と、これらのビーム上で動作する放射状カーネルを提案する。角度距離損失と合わせて、放射状ビームに基づく画像正準化モデル(略称BIC)を提案する。このモデルは、最大限の連続角度回帰を可能にし、任意の中心回転した入力画像を正準化する。このモデルは、前処理モデルとして、回転に依存しないビジョンパイプラインと、モデルにとらわれない回転を考慮した下流予測を可能にする。我々は、エンドツーエンドで学習した角度回帰器が、いくつかのビジョンデータセット(FashionMNIST、CIFAR10、COIL100、LFW)で連続回転角度を予測することができることを示す。
要約(オリジナル)
Nearly all state of the art vision models are sensitive to image rotations. Existing methods often compensate for missing inductive biases by using augmented training data to learn pseudo-invariances. Alongside the resource demanding data inflation process, predictions often poorly generalize. The inductive biases inherent to convolutional neural networks allow for translation equivariance through kernels acting parallely to the horizontal and vertical axes of the pixel grid. This inductive bias, however, does not allow for rotation equivariance. We propose a radial beam sampling strategy along with radial kernels operating on these beams to inherently incorporate center-rotation covariance. Together with an angle distance loss, we present a radial beam-based image canonicalization model, short BIC. Our model allows for maximal continuous angle regression and canonicalizes arbitrary center-rotated input images. As a pre-processing model, this enables rotation-invariant vision pipelines with model-agnostic rotation-sensitive downstream predictions. We show that our end-to-end trained angle regressor is able to predict continuous rotation angles on several vision datasets, i.e. FashionMNIST, CIFAR10, COIL100, and LFW.
arxiv情報
著者 | Johann Schmidt,Sebastian Stober |
発行日 | 2023-02-07 07:33:25+00:00 |
arxivサイト | arxiv_id(pdf) |