Data Augmentation in Human-Centric Vision

要約

この調査は、人間中心の視覚タスクにおけるデータ拡張技術の包括的な分析を示しており、この分野では初めてのことです。
人間の ReID、人間の解析、人間の姿勢推定、歩行者検出などの幅広い研究領域を掘り下げ、これらの領域におけるオーバーフィッティングや限られたトレーニング データによってもたらされる重大な課題に取り組んでいます。
私たちの研究では、データ拡張手法をデータ生成とデータ摂動という 2 つの主なタイプに分類しています。
データ生成には、グラフィック エンジン ベースの生成、生成モデル ベースの生成、データの再結合などの技術が含まれますが、データの摂動は画像レベルの摂動と人間レベルの摂動に分けられます。
各方法は人間中心のタスクの固有の要件に合わせて調整されており、複数の領域に適用できるものもあります。
私たちの貢献には広範な文献レビューが含まれており、人間中心の視覚におけるこれらの拡張技術の影響について深い洞察を提供し、各手法のニュアンスを強調しています。
また、より現実的で多様なトレーニング データを作成するための潜在拡散モデルなどの高度な生成モデルの統合など、未解決の問題や将来の方向性についても説明します。
この調査は、人間中心のビジョンにおけるデータ拡張の現状を要約するだけでなく、より堅牢で正確かつ効率的な人間中心のビジョン システムの開発を目的とした将来の研究の方向性も示しています。

要約(オリジナル)

This survey presents a comprehensive analysis of data augmentation techniques in human-centric vision tasks, a first of its kind in the field. It delves into a wide range of research areas including person ReID, human parsing, human pose estimation, and pedestrian detection, addressing the significant challenges posed by overfitting and limited training data in these domains. Our work categorizes data augmentation methods into two main types: data generation and data perturbation. Data generation covers techniques like graphic engine-based generation, generative model-based generation, and data recombination, while data perturbation is divided into image-level and human-level perturbations. Each method is tailored to the unique requirements of human-centric tasks, with some applicable across multiple areas. Our contributions include an extensive literature review, providing deep insights into the influence of these augmentation techniques in human-centric vision and highlighting the nuances of each method. We also discuss open issues and future directions, such as the integration of advanced generative models like Latent Diffusion Models, for creating more realistic and diverse training data. This survey not only encapsulates the current state of data augmentation in human-centric vision but also charts a course for future research, aiming to develop more robust, accurate, and efficient human-centric vision systems.

arxiv情報

著者 Wentao Jiang,Yige Zhang,Shaozhong Zheng,Si Liu,Shuicheng Yan
発行日 2024-03-13 16:05:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク