GTAutoAct: An Automatic Datasets Generation Framework Based on Game Engine Redevelopment for Action Recognition

要約

動作認識タスク用の現在のデータセットは、従来の収集および生成方法に起因する制限に直面しています。これには、動作クラスの範囲が制限されていること、多視点録画がないこと、多様性が限られていること、ビデオ品質が低いこと、手作業での収集に労力がかかることなどが含まれます。
これらの課題に対処するために、アクション認識の進歩を促進するゲーム エンジン テクノロジーを活用した革新的なデータセット生成フレームワークである GTAutoAct を紹介します。
GTAutoAct は、広範なアクション クラスと優れたビデオ品質を備えた、大規模で適切に注釈が付けられたデータセットを自動的に作成することに優れています。
私たちのフレームワークの特徴的な貢献には次のものが含まれます。(1) すぐに利用できる座標ベースの 3D 人間の動きを、複数の視点での適合性が強化された回転指向の表現に革新的に変換します。
(2) 動的なセグメンテーションと回転シーケンスの補間を採用して、スムーズでリアルなアクションのアニメーションを作成します。
(3) 広範囲にカスタマイズ可能なアニメーション シーンを提供します。
(4) 自動トリミングおよびラベル付け機能を備えた、ランダムに移動するカメラを特徴とする自律的なビデオ キャプチャおよび処理パイプラインを実装します。
実験結果は、フレームワークの堅牢性を強調し、行動認識モデルのトレーニングを大幅に改善する可能性を強調しています。

要約(オリジナル)

Current datasets for action recognition tasks face limitations stemming from traditional collection and generation methods, including the constrained range of action classes, absence of multi-viewpoint recordings, limited diversity, poor video quality, and labor-intensive manually collection. To address these challenges, we introduce GTAutoAct, a innovative dataset generation framework leveraging game engine technology to facilitate advancements in action recognition. GTAutoAct excels in automatically creating large-scale, well-annotated datasets with extensive action classes and superior video quality. Our framework’s distinctive contributions encompass: (1) it innovatively transforms readily available coordinate-based 3D human motion into rotation-orientated representation with enhanced suitability in multiple viewpoints; (2) it employs dynamic segmentation and interpolation of rotation sequences to create smooth and realistic animations of action; (3) it offers extensively customizable animation scenes; (4) it implements an autonomous video capture and processing pipeline, featuring a randomly navigating camera, with auto-trimming and labeling functionalities. Experimental results underscore the framework’s robustness and highlights its potential to significantly improve action recognition model training.

arxiv情報

著者 Xingyu Song,Zhan Li,Shi Chen,Kazuyuki Demachi
発行日 2024-01-24 12:18:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク