要約
新しいスキルを習得したり、現在のスキルレベルを向上させたりするためには、フィードバックが不可欠である。しかし、ビデオからのスキル評価のための現在の方法は、スコアを提供するか、デモンストレーションを比較するだけであり、ユーザは、何を改善すべきかを知る負担を負うことになる。我々は、バスケットボールやサッカーなどの身体活動をしている人の動画から、実用的なフィードバックを生成する新しい方法を紹介する。本手法は、ビデオ・デモンストレーションとそれに付随する3Dボディ・ポーズを取り込み、(1)その人がうまくできていることと改善できることを説明する自由形式の専門家のコメントと、(2)必要な修正を組み込んだ視覚的な専門家のデモンストレーションを生成する。我々は、Ego-Exo4Dの熟練した活動のビデオと専門家のコメントを、強力な言語モデルと共に活用して、このタスクのための弱い教師ありのトレーニングデータセットを作成する方法を示し、コーチングフィードバックを推論するためのマルチモーダルビデオ言語モデルを考案する。本手法は、マルチモーダルな入力の組み合わせを推論することができ、専門家の解説、専門家のビデオ検索、そして世界で初めての専門家のポーズ生成といった、フルスペクトラムで実用的なコーチングを出力することができる。
要約(オリジナル)
Feedback is essential for learning a new skill or improving one’s current skill-level. However, current methods for skill-assessment from video only provide scores or compare demonstrations, leaving the burden of knowing what to do differently on the user. We introduce a novel method to generate actionable feedback from video of a person doing a physical activity, such as basketball or soccer. Our method takes a video demonstration and its accompanying 3D body pose and generates (1) free-form expert commentary describing what the person is doing well and what they could improve, and (2) a visual expert demonstration that incorporates the required corrections. We show how to leverage Ego-Exo4D’s videos of skilled activity and expert commentary together with a strong language model to create a weakly-supervised training dataset for this task, and we devise a multimodal video-language model to infer coaching feedback. Our method is able to reason across multi-modal input combinations to output full-spectrum, actionable coaching — expert commentary, expert video retrieval, and the first-of-its-kind expert pose generation — outperforming strong vision-language models on both established metrics and human preference studies.
arxiv情報
著者 | Kumar Ashutosh,Tushar Nagarajan,Georgios Pavlakos,Kris Kitani,Kristen Grauman |
発行日 | 2024-08-01 16:13:07+00:00 |
arxivサイト | arxiv_id(pdf) |