A Dataset and Framework for Learning State-invariant Object Representations

要約

認識と検索のためにオブジェクト表現を学習するために、より一般的に使用される他のinvarianceにもう1つの不変性を追加します。
状態の不変性とは、傘が折りたたまれたとき、または床に衣服のアイテムが投げられたときなど、オブジェクトの構造形式の変化に関して堅牢性を意味します。
この作業では、任意の視点から記録されたオブジェクト画像の状態をキャプチャし、ポーズバリエーションをキャプチャする新しいデータセットであるObjectSwithStateChangeを提示します。
このデータセットは、状態の変更が可能な3Dオブジェクトの微調整されたオブジェクト認識と取得の研究を促進すると考えています。
そのような研究の目標は、視点、ポーズ、照明などの変化によって誘発される変換に不変の変化にも不変の留まることにも不変の識別オブジェクト埋め込みを学習できるモデルを訓練することです。
これに対処するために、トレーニング段階で学習した埋め込みスペースのオブジェクト間距離が小さいオブジェクトペアを徐々に選択するカリキュラム学習戦略を提案します。
このアプローチは、視覚的に類似したオブジェクトの例を徐々に区切るのが難しく、異なるカテゴリ内とその両方でサンプリングします。
カリキュラム学習が果たす役割に関連する私たちのアブレーションは、オブジェクト認識の精度が7.9%の改善と、新しいデータセットの最先端に対する9.2%の検索マップの改善と、ModelNet40、ObjectPi、FG3Dなどの3つの挑戦的なマルチビューデータセットを示しています。

要約(オリジナル)

We add one more invariance – the state invariance – to the more commonly used other invariances for learning object representations for recognition and retrieval. By state invariance, we mean robust with respect to changes in the structural form of the objects, such as when an umbrella is folded, or when an item of clothing is tossed on the floor. In this work, we present a novel dataset, ObjectsWithStateChange, which captures state and pose variations in the object images recorded from arbitrary viewpoints. We believe that this dataset will facilitate research in fine-grained object recognition and retrieval of 3D objects that are capable of state changes. The goal of such research would be to train models capable of learning discriminative object embeddings that remain invariant to state changes while also staying invariant to transformations induced by changes in viewpoint, pose, illumination, etc. A major challenge in this regard is that instances of different objects (both within and across different categories) under various state changes may share similar visual characteristics and therefore may be close to one another in the learned embedding space, which would make it more difficult to discriminate between them. To address this, we propose a curriculum learning strategy that progressively selects object pairs with smaller inter-object distances in the learned embedding space during the training phase. This approach gradually samples harder-to-distinguish examples of visually similar objects, both within and across different categories. Our ablation related to the role played by curriculum learning indicates an improvement in object recognition accuracy of 7.9% and retrieval mAP of 9.2% over the state-of-the-art on our new dataset, as well as three other challenging multi-view datasets such as ModelNet40, ObjectPI, and FG3D.

arxiv情報

著者 Rohan Sarkar,Avinash Kak
発行日 2025-02-27 17:26:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR, cs.LG パーマリンク