要約
本論文では、MediaPipe Holisticの手の関心領域(ROI)予測における重大な欠陥に取り組みます。この欠陥は、理想的でない手の向きに苦労し、手話の認識精度に影響を与えます。我々は、手のキーポイントとz次元を追加した特徴セットを活用し、ROI推定を強化するデータ駆動型のアプローチを提案する。我々の結果は、現在の方法と比較して、より高いIntersection-over-Unionで、より良い推定を実証している。我々のコードと最適化はhttps://github.com/sign-language-processing/mediapipe-hand-crop-fix。
要約(オリジナル)
This paper addresses a critical flaw in MediaPipe Holistic’s hand Region of Interest (ROI) prediction, which struggles with non-ideal hand orientations, affecting sign language recognition accuracy. We propose a data-driven approach to enhance ROI estimation, leveraging an enriched feature set including additional hand keypoints and the z-dimension. Our results demonstrate better estimates, with higher Intersection-over-Union compared to the current method. Our code and optimizations are available at https://github.com/sign-language-processing/mediapipe-hand-crop-fix.
arxiv情報
著者 | Amit Moryossef |
発行日 | 2024-05-06 15:10:16+00:00 |
arxivサイト | arxiv_id(pdf) |