要約
我々は、ブレに不変な画素レベルの特徴を学習するための新しい対照的な目的を提案する。他の不変性(例えば、ポーズ、照明、天候)は、ラベル付けされていない画像に対応する変換を適用することで、自己教師付き学習中に学習することができる。我々は、我々の目的で訓練された単純なU-Netが、現実的で困難な条件下で、動いているカメラで撮影された未見のビデオのフレームの位置合わせに有用な局所的特徴を生成できることを示す。また、注意深く設計されたおもちゃの例を用いて、過完成な画素が画像中のオブジェクトのアイデンティティと、これらのオブジェクトに対する画素座標を符号化できることを示す。
要約(オリジナル)
We propose a new contrastive objective for learning overcomplete pixel-level features that are invariant to motion blur. Other invariances (e.g., pose, illumination, or weather) can be learned by applying the corresponding transformations on unlabeled images during self-supervised training. We showcase that a simple U-Net trained with our objective can produce local features useful for aligning the frames of an unseen video captured with a moving camera under realistic and challenging conditions. Using a carefully designed toy example, we also show that the overcomplete pixels can encode the identity of objects in an image and the pixel coordinates relative to these objects.
arxiv情報
著者 | Leonid Pogorelyuk,Stefan T. Radev |
発行日 | 2024-11-01 16:34:04+00:00 |
arxivサイト | arxiv_id(pdf) |