Testing MediaPipe Holistic for Linguistic Analysis of Nonmanual Markers in Sign Languages

要約

深層学習の進歩により、さまざまなタスクに使用できる人体や顔の信頼できるランドマーク追跡が可能になりました。
最近のコンピューター ビジョン ソリューション MediaPipe Holistic (MPH) をテストして、顔の特徴の追跡が手話データの言語分析に十分な信頼性があるかどうかを確認し、古いソリューション (OpenFace、OF) と比較します。
私たちは、カザフスタン・ロシア手話による文章の既存のデータセットと、首の傾きと眉の動きを含む新しく作成されたビデオの小さなデータセットを使用します。
MPH は眉毛の動きの言語分析には十分なパフォーマンスを発揮していないことがわかりましたが、これは補正なしでは同様にパフォーマンスが悪い OF とは異なる方法で行われます。
これらの制限を克服するために追加の補正モデルをトレーニングするという以前の提案を繰り返します。

要約(オリジナル)

Advances in Deep Learning have made possible reliable landmark tracking of human bodies and faces that can be used for a variety of tasks. We test a recent Computer Vision solution, MediaPipe Holistic (MPH), to find out if its tracking of the facial features is reliable enough for a linguistic analysis of data from sign languages, and compare it to an older solution (OpenFace, OF). We use an existing data set of sentences in Kazakh-Russian Sign Language and a newly created small data set of videos with head tilts and eyebrow movements. We find that MPH does not perform well enough for linguistic analysis of eyebrow movement — but in a different way from OF, which is also performing poorly without correction. We reiterate a previous proposal to train additional correction models to overcome these limitations.

arxiv情報

著者 Anna Kuznetsova,Vadim Kimmelman
発行日 2024-03-15 14:59:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク