要約
ステップバイステップの手順に従うことは、個人が日常生活で行う様々な活動に不可欠な要素である。これらの手順は、家具の組み立てであれ、レシピの準備であれ、目標を効率的に達成するための指針となる枠組みである。しかし、手続き的活動は複雑で時間がかかるため、エラーを起こす可能性が本質的に高くなる。フレームのシーケンスからこのような手続き的活動を理解することは、視覚情報の正確な解釈と活動の構造についての推論能力を要求する困難な課題である。この目的のために、我々は、実際のキッチン環境でレシピを実行する人々の384の録画(94.5時間)からなる、新しい自己中心的4Dデータセット、CaptainCook4Dを収集する。このデータセットは、2つの異なるタイプの活動から構成されている。1つは、参加者が提供されたレシピの指示を遵守するものであり、もう1つは、参加者が逸脱してエラーを誘発するものである。我々は5.3Kステップアノテーションと10Kの細かいアクションアノテーションを提供し、以下のタスクのためにデータセットをベンチマークする:教師ありエラー認識、マルチステップローカライゼーション、手順学習
要約(オリジナル)
Following step-by-step procedures is an essential component of various activities carried out by individuals in their daily lives. These procedures serve as a guiding framework that helps to achieve goals efficiently, whether it is assembling furniture or preparing a recipe. However, the complexity and duration of procedural activities inherently increase the likelihood of making errors. Understanding such procedural activities from a sequence of frames is a challenging task that demands an accurate interpretation of visual information and the ability to reason about the structure of the activity. To this end, we collect a new egocentric 4D dataset, CaptainCook4D, comprising 384 recordings (94.5 hours) of people performing recipes in real kitchen environments. This dataset consists of two distinct types of activity: one in which participants adhere to the provided recipe instructions and another in which they deviate and induce errors. We provide 5.3K step annotations and 10K fine-grained action annotations and benchmark the dataset for the following tasks: supervised error recognition, multistep localization, and procedure learning
arxiv情報
著者 | Rohith Peddi,Shivvrat Arya,Bharath Challa,Likhitha Pallapothula,Akshay Vyas,Bhavya Gouripeddi,Jikai Wang,Qifan Zhang,Vasundhara Komaragiri,Eric Ragan,Nicholas Ruozzi,Yu Xiang,Vibhav Gogate |
発行日 | 2024-11-01 16:12:52+00:00 |
arxivサイト | arxiv_id(pdf) |