要約
既存のスケルトンベースの人間の行動分類モデルは、トレーニングとテストの両方において、適切にトリミングされたアクション固有のスケルトン ビデオに依存しており、連結されたアクションを示すトリミングされていないビデオが主流である現実世界のアプリケーションへの拡張性が妨げられています。
この制限を克服するために、最近導入されたスケルトン アクション セグメンテーション モデルには、トリミングされていないスケルトン ビデオがエンドツーエンドのトレーニングに組み込まれています。
このモデルは、あらゆる長さのテストビデオに対してフレームごとの予測を提供するように最適化されており、同時にアクションの位置特定と分類を実現します。
しかし、そのような改善を達成するには、フレームごとに注釈を付けたスケルトンビデオが必要となり、実際には依然として時間がかかります。
この論文では、トリミングされた短いスケルトン ビデオでトレーニングされたスケルトン ベースのアクション セグメンテーションの新しいフレームワークを紹介しますが、このフレームワークはトリミングされていない長いビデオでも実行できます。
このアプローチは、ステッチ、コントラスト、セグメントの 3 つのステップで実装されます。
まず、Stitch は、トリミングされたスケルトン ビデオを意味空間を構成する基本的な人間の動きとして扱い、サンプリングしてマルチアクションのステッチされたシーケンスを生成できる、一時的なスケルトン ステッチング スキームを提案します。
Contrast は、スケルトン エンコーダーが意味のある行動時間的コンテキストを学習してアクションのセグメンテーションを改善できるようにする新しい識別口実タスクを使用して、ステッチされたシーケンスから対照的な表現を学習します。
最後に、Segment は、特定のデータの可用性を処理しながらセグメンテーション層を学習することにより、提案された方法をアクション セグメンテーションに関連付けます。
実験では、提案された方法の有効性を評価するために、実世界のスケルトンベースの人間の行動セグメンテーションの適応定式化に、トリミングされたソース データセットとトリミングされていないターゲット データセットが含まれます。
要約(オリジナル)
Existing skeleton-based human action classification models rely on well-trimmed action-specific skeleton videos for both training and testing, precluding their scalability to real-world applications where untrimmed videos exhibiting concatenated actions are predominant. To overcome this limitation, recently introduced skeleton action segmentation models involve un-trimmed skeleton videos into end-to-end training. The model is optimized to provide frame-wise predictions for any length of testing videos, simultaneously realizing action localization and classification. Yet, achieving such an improvement im-poses frame-wise annotated skeleton videos, which remains time-consuming in practice. This paper features a novel framework for skeleton-based action segmentation trained on short trimmed skeleton videos, but that can run on longer un-trimmed videos. The approach is implemented in three steps: Stitch, Contrast, and Segment. First, Stitch proposes a tem-poral skeleton stitching scheme that treats trimmed skeleton videos as elementary human motions that compose a semantic space and can be sampled to generate multi-action stitched se-quences. Contrast learns contrastive representations from stitched sequences with a novel discrimination pretext task that enables a skeleton encoder to learn meaningful action-temporal contexts to improve action segmentation. Finally, Segment relates the proposed method to action segmentation by learning a segmentation layer while handling particular da-ta availability. Experiments involve a trimmed source dataset and an untrimmed target dataset in an adaptation formulation for real-world skeleton-based human action segmentation to evaluate the effectiveness of the proposed method.
arxiv情報
著者 | Haitao Tian,Pierre Payeur |
発行日 | 2024-12-19 16:00:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google