Comparison of marker-less 2D image-based methods for infant pose estimation

要約

この研究では、ビデオベースの自動化された一般運動評価(GMA)で利用可能なジェネリックおよび乳児ポーズ推定量のパフォーマンスと、最適な記録のための視聴角、つまりGMA対トップダウンビューで使用される従来の対角線ビューの選択を比較します。
4週間から26週間の乳児自発運動機能の75の録音から4500の注釈付きビデオフレームを使用しました。
どのポーズ推定方法とカメラ角度を決定するために、GMA関連の設定で乳児に最適なポーズ推定精度を生成するために、人間の注釈への距離と正しいキーポイント(PCK)の割合を計算して比較しました。
結果は、大人であるVitsposeで訓練された最高のパフォーマンスの一般的なモデルも、乳児に最適であることを示しています。
幼児データセットの一般的なポーズ推定器よりも乳児ポーズ推定器を使用することで改善は見られません。
ただし、データ上の一般的なモデルを再調整すると、ポーズ推定精度が大幅に改善されます。
トップダウンビューから得られたポーズ推定精度は、特に股関節キーポイントの検出のために、対角線ビューから得られたものよりも大幅に優れています。
また、この結果は、乳児ポーズ推定器の限られた一般化能力が他の乳児データセットに限られていることを示しています。
標準のGMAメソッドは評価に対角線ビューを使用しますが、推定精度のポーズは、トップダウンビューを使用して大幅に向上します。
これは、自動化されたGMA研究のための録音セットアップにトップダウンビューを含める必要があることを示唆しています。

要約(オリジナル)

In this study we compare the performance of available generic- and infant-pose estimators for a video-based automated general movement assessment (GMA), and the choice of viewing angle for optimal recordings, i.e., conventional diagonal view used in GMA vs. top-down view. We used 4500 annotated video-frames from 75 recordings of infant spontaneous motor functions from 4 to 26 weeks. To determine which pose estimation method and camera angle yield the best pose estimation accuracy on infants in a GMA related setting, the distance to human annotations and the percentage of correct key-points (PCK) were computed and compared. The results show that the best performing generic model trained on adults, ViTPose, also performs best on infants. We see no improvement from using infant-pose estimators over the generic pose estimators on our infant dataset. However, when retraining a generic model on our data, there is a significant improvement in pose estimation accuracy. The pose estimation accuracy obtained from the top-down view is significantly better than that obtained from the diagonal view, especially for the detection of the hip key-points. The results also indicate limited generalization capabilities of infant-pose estimators to other infant datasets, which hints that one should be careful when choosing infant pose estimators and using them on infant datasets which they were not trained on. While the standard GMA method uses a diagonal view for assessment, pose estimation accuracy significantly improves using a top-down view. This suggests that a top-down view should be included in recording setups for automated GMA research.

arxiv情報

著者 Lennart Jahn,Sarah Flügge,Dajie Zhang,Luise Poustka,Sven Bölte,Florentin Wörgötter,Peter B Marschik,Tomas Kulvicius
発行日 2025-03-26 14:45:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク