Automatic Generation of Labeled Data for Video-Based Human Pose Analysis via NLP applied to YouTube Subtitles

要約

タイトル:YouTube字幕を用いたビデオベースの人間の姿勢分析のためのラベル付きデータの自動生成

要約:

– コンピュータビジョンや機械学習(ML)の最近の進歩により、自宅での運動評価システムが人気となっています。
– しかしそのパフォーマンスは利用可能なトレーニングデータの量に大きく依存しています。
– 運動に特化したラベル付きデータセットは珍しいため、オンラインで利用可能なフィットネス動画の豊富さを利用する方法を提案します。
– 具体的には、動画が演習を示すだけでなく、言語を別の情報源として提供する利点を利用します。
– プッシュアップを例にすると、自然言語処理(NLP)を使用して字幕データを分析することで、姿勢分析に関する関連情報を含むラベル付き(関連なし、関連あり正解、関連あり不正解)データセットを作成できることを示します。
– 特に、関連なしのクリップ(n = 332)と関連のあるクリップ(n = 298)では、共通の可視性値に顕著な差があることを示します。
– クラスターの重心を調べることでも、異なるクラスのために異なる姿勢が示されています。

要約(オリジナル)

With recent advancements in computer vision as well as machine learning (ML), video-based at-home exercise evaluation systems have become a popular topic of current research. However, performance depends heavily on the amount of available training data. Since labeled datasets specific to exercising are rare, we propose a method that makes use of the abundance of fitness videos available online. Specifically, we utilize the advantage that videos often not only show the exercises, but also provide language as an additional source of information. With push-ups as an example, we show that through the analysis of subtitle data using natural language processing (NLP), it is possible to create a labeled (irrelevant, relevant correct, relevant incorrect) dataset containing relevant information for pose analysis. In particular, we show that irrelevant clips ($n=332$) have significantly different joint visibility values compared to relevant clips ($n=298$). Inspecting cluster centroids also show different poses for the different classes.

arxiv情報

著者 Sebastian Dill,Susi Zhihan,Maurice Rohr,Maziar Sharbafi,Christoph Hoog Antink
発行日 2023-05-02 08:54:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク