Are you Struggling? Dataset and Baselines for Struggle Determination in Assembly Videos

要約

人々がいつ苦しんでいるかをビデオから判断することで、行動をより詳細に理解できるようになり、インテリジェントなサポートのビジュアル インターフェイスを構築する機会が生まれます。
この論文では、ビデオから闘争を判断するための 3 つの組み立てアクティビティと対応するパフォーマンス ベースラインを含む新しいデータセットを紹介します。
配管パイプの組み立て (Pipes-Struggle)、キャンプ テントの設営 (Tent-Struggle)、ハノイの塔のパズルの解決 (Tower-Struggle) を含む 3 つの現実世界の問題解決アクティビティが紹介されています。
ビデオセグメントは、基準に基づいてスコア付けされました。
アノテーターが強制選択の 4 段階スケールを使用して認識した闘争のレベル。
各ビデオ セグメントには、クラウドソースのアノテーションに加えて、1 人の専門アノテーターによってアノテーションが付けられました。
このデータセットは最初の闘争アノテーション データセットで、合計 73 人の参加者からの 5.1 時間のビデオと 725,100 フレームが含まれています。
闘争分類、闘争レベル回帰、闘争ラベル分布学習という 3 つの意思決定タスクを評価します。
私たちは、アブレーション研究と結果の視覚化とともに、いくつかの主流のディープ ニューラル ネットワークを利用して、各タスクのベースライン結果を提供します。
私たちの仕事は、格闘を分析し、手動活動中にユーザーをサポートし、学習を促進する支援システムや、その他のビデオ理解能力を目指して取り組んでいます。

要約(オリジナル)

Determining when people are struggling from video enables a finer-grained understanding of actions and opens opportunities for building intelligent support visual interfaces. In this paper, we present a new dataset with three assembly activities and corresponding performance baselines for the determination of struggle from video. Three real-world problem-solving activities including assembling plumbing pipes (Pipes-Struggle), pitching camping tents (Tent-Struggle) and solving the Tower of Hanoi puzzle (Tower-Struggle) are introduced. Video segments were scored w.r.t. the level of struggle as perceived by annotators using a forced choice 4-point scale. Each video segment was annotated by a single expert annotator in addition to crowd-sourced annotations. The dataset is the first struggle annotation dataset and contains 5.1 hours of video and 725,100 frames from 73 participants in total. We evaluate three decision-making tasks: struggle classification, struggle level regression, and struggle label distribution learning. We provide baseline results for each of the tasks utilising several mainstream deep neural networks, along with an ablation study and visualisation of results. Our work is motivated toward assistive systems that analyze struggle, support users during manual activities and encourage learning, as well as other video understanding competencies.

arxiv情報

著者 Shijia Feng,Michael Wray,Brian Sullivan,Youngkyoon Jang,Casimir Ludwig,Iain Gilchrist,Walterio Mayol-Cuevas
発行日 2024-02-28 16:42:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク