要約
2021年東京オリンピックのクールなスケートボード・スポーツ・プログラムに感銘を受け、我々は世界で初めてオリジナルの実世界ビデオデータセット「SkateboardAI」をキュレーションし、様々なトリックを正確に認識するために、多様なユニモーダルおよびマルチモーダルビデオアクション認識アプローチを独自に設計・実装した。(1)CNNとLSTM、(2)CNNとBiLSTM、(3)効果的な注意メカニズムを持つCNNとBiLSTM、(4)トランスフォーマーベースのアクション認識パイプライン。マルチモーダルな条件に移し、2ストリームInflated-3Dアーキテクチャを’SkateboardAI’データセットで調査し、ユニモーダルな場合との性能を比較した。まとめると、我々の目的は、最もクールなスケートボード競技のための優れたAIスポーツ審判を開発することである。
要約(オリジナル)
Impressed by the coolest skateboarding sports program from 2021 Tokyo Olympic Games, we are the first to curate the original real-world video datasets ‘SkateboardAI’ in the wild, even self-design and implement diverse uni-modal and multi-modal video action recognition approaches to recognize different tricks accurately. For uni-modal methods, we separately apply (1) CNN and LSTM; (2) CNN and BiLSTM; (3) CNN and BiLSTM with effective attention mechanisms; (4) Transformer-based action recognition pipeline. Transferred to the multi-modal conditions, we investigated the two-stream Inflated-3D architecture on ‘SkateboardAI’ datasets to compare its performance with uni-modal cases. In sum, our objective is developing an excellent AI sport referee for the coolest skateboarding competitions.
arxiv情報
著者 | Hanxiao Chen |
発行日 | 2024-01-03 12:09:50+00:00 |
arxivサイト | arxiv_id(pdf) |