要約
この研究では、トリミングされていないビデオでの人間の転倒検出の下流タスクにおける大規模なビデオ理解基盤モデルのパフォーマンスを調査し、「転倒」、「横たわる」、「その他」のクラスを持つマルチクラスのアクション検出に事前トレーニングされたビジョン トランスフォーマーを活用します。
日常生活活動(ADL)」。
トリミングされていないビデオの単純なカットアップに依存する時間的なアクションの位置特定のための方法が実証されています。
この方法論には、タイムスタンプ アクション アノテーションを持つデータセットを短いアクション クリップのラベル付きデータセットに変換する前処理パイプラインが含まれています。
シンプルで効果的なクリップ サンプリング戦略が紹介されています。
提案された手法の有効性は、公開されている高品質落下シミュレーション データセット (HQFSD) で経験的に評価されています。
実験結果は、提案されたパイプラインのパフォーマンスを検証します。
この結果はリアルタイム アプリケーションにとって有望であり、所定の実験設定の下で、HQFSD データセット上で最先端の 0.96 F1 スコアを使用してビデオ レベルで転倒が検出されます。
ソースコードはGitHubで公開される予定です。
要約(オリジナル)
This work explores the performance of a large video understanding foundation model on the downstream task of human fall detection on untrimmed video and leverages a pretrained vision transformer for multi-class action detection, with classes: ‘Fall’, ‘Lying’ and ‘Other/Activities of daily living (ADL)’. A method for temporal action localization that relies on a simple cutup of untrimmed videos is demonstrated. The methodology includes a preprocessing pipeline that converts datasets with timestamp action annotations into labeled datasets of short action clips. Simple and effective clip-sampling strategies are introduced. The effectiveness of the proposed method has been empirically evaluated on the publicly available High-Quality Fall Simulation Dataset (HQFSD). The experimental results validate the performance of the proposed pipeline. The results are promising for real-time application, and the falls are detected on video level with a state-of-the-art 0.96 F1 score on the HQFSD dataset under the given experimental settings. The source code will be made available on GitHub.
arxiv情報
著者 | Till Grutschus,Ola Karrar,Emir Esenov,Ekta Vats |
発行日 | 2024-01-29 16:37:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google