要約
認識と検索のためのオブジェクト表現を学習するために、より一般的に使用される他の不変性に、もう 1 つの不変性である状態不変性を追加します。
状態不変性とは、傘を折りたたんだときや衣服を床に放り投げたときなど、オブジェクトの構造的形状の変化に対してロバストであることを意味します。
人間は通常、そのような状態変化にもかかわらず物体を認識することに困難を感じないため、同様の能力を備えた神経構造を考案することが可能かどうかという疑問に当然直面します。
そのために、任意の視点から記録されたオブジェクト画像の状態と姿勢の変化をキャプチャする新しいデータセット ObjectsWithStateChange を紹介します。
私たちは、このデータセットにより、状態変化が可能なオブジェクトのきめ細かいオブジェクト認識と検索の研究が促進されると考えています。
このような研究の目標は、状態の変化に対して不変のままでありながら、視点、ポーズ、照明などの変化によって引き起こされる変換に対しても不変のままであるオブジェクトの埋め込みを生成できるモデルをトレーニングすることです。ObjectsWithStateChange データセットの有用性を実証するために、次のことも行います。
各エポックの後に学習された埋め込み空間の類似関係を使用してトレーニング プロセスをガイドするカリキュラム学習戦略を提案します。
このモデルは、視覚的に類似したオブジェクトをさまざまなカテゴリ内およびカテゴリ間で比較することで識別機能を学習し、状態の変化により区別するのが難しいオブジェクトを区別できるようにします。
私たちは、この戦略により、状態変化のあるオブジェクトが関与する可能性のあるきめ細かいタスクの識別機能をキャプチャするモデルの能力が強化され、新しいデータセットだけでなく、他の 2 つの困難なマルチタスクでもオブジェクトレベルのタスクのパフォーマンスの向上につながると考えています。
ModelNet40 や ObjectPI などのデータセットを表示します。
要約(オリジナル)
We add one more invariance – state invariance – to the more commonly used other invariances for learning object representations for recognition and retrieval. By state invariance, we mean robust with respect to changes in the structural form of the object, such as when an umbrella is folded, or when an item of clothing is tossed on the floor. Since humans generally have no difficulty in recognizing objects despite such state changes, we are naturally faced with the question of whether it is possible to devise a neural architecture with similar abilities. To that end, we present a novel dataset, ObjectsWithStateChange, that captures state and pose variations in the object images recorded from arbitrary viewpoints. We believe that this dataset will facilitate research in fine-grained object recognition and retrieval of objects that are capable of state changes. The goal of such research would be to train models capable of generating object embeddings that remain invariant to state changes while also staying invariant to transformations induced by changes in viewpoint, pose, illumination, etc. To demonstrate the usefulness of the ObjectsWithStateChange dataset, we also propose a curriculum learning strategy that uses the similarity relationships in the learned embedding space after each epoch to guide the training process. The model learns discriminative features by comparing visually similar objects within and across different categories, encouraging it to differentiate between objects that may be challenging to distinguish due to changes in their state. We believe that this strategy enhances the model’s ability to capture discriminative features for fine-grained tasks that may involve objects with state changes, leading to performance improvements on object-level tasks not only on our new dataset, but also on two other challenging multi-view datasets such as ModelNet40 and ObjectPI.
arxiv情報
著者 | Rohan Sarkar,Avinash Kak |
発行日 | 2024-04-09 17:17:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google