Optimizing Hand Region Detection in MediaPipe Holistic Full-Body Pose Estimation to Improve Accuracy and Avoid Downstream Errors

要約

本論文では、MediaPipe Holisticの手の関心領域(ROI)予測における重大な欠陥に取り組みます。この欠陥は、理想的でない手の向きに苦労し、手話の認識精度に影響を与えます。我々は、手のキーポイントとz次元を追加した特徴セットを活用し、ROI推定を強化するデータ駆動型のアプローチを提案する。我々の結果は、現在の方法と比較して、より高いIntersection-over-Unionで、より良い推定を実証している。我々のコードと最適化はhttps://github.com/sign-language-processing/mediapipe-hand-crop-fix。

要約(オリジナル)

This paper addresses a critical flaw in MediaPipe Holistic’s hand Region of Interest (ROI) prediction, which struggles with non-ideal hand orientations, affecting sign language recognition accuracy. We propose a data-driven approach to enhance ROI estimation, leveraging an enriched feature set including additional hand keypoints and the z-dimension. Our results demonstrate better estimates, with higher Intersection-over-Union compared to the current method. Our code and optimizations are available at https://github.com/sign-language-processing/mediapipe-hand-crop-fix.

arxiv情報

著者 Amit Moryossef
発行日 2024-05-06 15:10:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク