CaptainCook4D: A dataset for understanding errors in procedural activities

要約

段階的な手順に従うことは、個人が日常生活で行うさまざまな活動に不可欠な要素です。
これらの手順は、家具の組み立てやレシピの準備など、目標を効率的に達成するための指針となるフレームワークとして機能します。
ただし、手続きの複雑さと時間がかかるため、本質的にエラーが発生する可能性が高くなります。
一連のフレームからこのような手順的なアクティビティを理解することは、視覚情報の正確な解釈とアクティビティの構造について推論する能力を必要とする困難な作業です。
この目的を達成するために、実際のキッチン環境でレシピを実行する人々の 384 件の記録 (94.5 時間) からなる新しい自己中心的な 4D データセット、CaptainCook4D を収集します。
このデータセットは、参加者が提供されたレシピの指示に従うアクティビティと、参加者が逸脱してエラーを誘発するアクティビティの 2 つの異なるタイプで構成されています。
5.3K のステップ アノテーションと 10K のきめ細かいアクション アノテーションを提供し、教師ありエラー認識、マルチステップ ローカリゼーション、手順学習のタスクのデータセットをベンチマークします。

要約(オリジナル)

Following step-by-step procedures is an essential component of various activities carried out by individuals in their daily lives. These procedures serve as a guiding framework that helps to achieve goals efficiently, whether it is assembling furniture or preparing a recipe. However, the complexity and duration of procedural activities inherently increase the likelihood of making errors. Understanding such procedural activities from a sequence of frames is a challenging task that demands an accurate interpretation of visual information and the ability to reason about the structure of the activity. To this end, we collect a new egocentric 4D dataset, CaptainCook4D, comprising 384 recordings (94.5 hours) of people performing recipes in real kitchen environments. This dataset consists of two distinct types of activity: one in which participants adhere to the provided recipe instructions and another in which they deviate and induce errors. We provide 5.3K step annotations and 10K fine-grained action annotations and benchmark the dataset for the following tasks: supervised error recognition, multistep localization, and procedure learning

arxiv情報

著者 Rohith Peddi,Shivvrat Arya,Bharath Challa,Likhitha Pallapothula,Akshay Vyas,Jikai Wang,Qifan Zhang,Vasundhara Komaragiri,Eric Ragan,Nicholas Ruozzi,Yu Xiang,Vibhav Gogate
発行日 2023-12-22 09:29:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク