要約
私たちは、画像内のアクションの最終状態を認識するという問題に焦点を当てます。これは、どのようなアクションがどのような方法で実行されるかを理解するために重要です。
私たちはこれを、切断の粗さを予測するタスク、つまり物体が「粗く」切断されたか「細かく」切断されたかを決定するタスクに焦点を当てて研究します。
これらの注釈付き最終状態を含むデータセットは利用できないため、トレーニング データを合成するための拡張方法を提案します。
この手法を既存の動作認識データセットから抽出した動作の切断に適用します。
私たちの方法はオブジェクトに依存しません。つまり、オブジェクトの位置は前提としますが、そのアイデンティティは前提としません。
オブジェクト全体の 100 枚未満の画像から始めて、粗さの異なる視覚的に多様なカットをシミュレートする数千枚の画像を生成できます。
私たちは合成データを使用して UNet に基づくモデルをトレーニングし、粗く/細かくカットされたオブジェクトを表示する実際の画像でテストします。
結果は、トレーニングとテストの間に領域のギャップがあるにもかかわらず、モデルが切断アクションの最終状態を正常に認識していること、およびモデルが目に見えないオブジェクトに対して適切に一般化していることを示しています。
要約(オリジナル)
We focus on the problem of recognising the end state of an action in an image, which is critical for understanding what action is performed and in which manner. We study this focusing on the task of predicting the coarseness of a cut, i.e., deciding whether an object was cut ‘coarsely’ or ‘finely’. No dataset with these annotated end states is available, so we propose an augmentation method to synthesise training data. We apply this method to cutting actions extracted from an existing action recognition dataset. Our method is object agnostic, i.e., it presupposes the location of the object but not its identity. Starting from less than a hundred images of a whole object, we can generate several thousands images simulating visually diverse cuts of different coarseness. We use our synthetic data to train a model based on UNet and test it on real images showing coarsely/finely cut objects. Results demonstrate that the model successfully recognises the end state of the cutting action despite the domain gap between training and testing, and that the model generalises well to unseen objects.
arxiv情報
著者 | Davide Moltisanti,Hakan Bilen,Laura Sevilla-Lara,Frank Keller |
発行日 | 2024-05-13 13:18:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google