Language identification as improvement for lip-based biometric visual systems

要約

言語は、常に人類の決定的な特徴の 1 つでした。
Visual Language Identification (VLI) は、複雑でほとんど研究されていない比較的新しい研究分野です。
この論文では、言語情報をソフトバイオメトリック特性として使用して、唇の動きに基づく視覚的 (聴覚のない) 識別システムのパフォーマンスを向上させる予備研究を提示します。
スコアベースの融合戦略を使用してこれらのデータを統合した結果、提案された視覚システムの識別性能が大幅に改善されたことを報告します。
深層学習と機械学習の方法が考慮され、評価されます。
実験目的で、8 つの異なる言語からなる、spokeEn Language rEcognition (BABELE) の問題のための laBial Articulation と呼ばれるデータセットが作成されました。
これには、話し言葉が最も関連性の高いさまざまな機能のコレクションが含まれていますが、各サンプルには、被験者の性別と年齢が手動でラベル付けされています。

要約(オリジナル)

Language has always been one of humanity’s defining characteristics. Visual Language Identification (VLI) is a relatively new field of research that is complex and largely understudied. In this paper, we present a preliminary study in which we use linguistic information as a soft biometric trait to enhance the performance of a visual (auditory-free) identification system based on lip movement. We report a significant improvement in the identification performance of the proposed visual system as a result of the integration of these data using a score-based fusion strategy. Methods of Deep and Machine Learning are considered and evaluated. To the experimentation purposes, the dataset called laBial Articulation for the proBlem of the spokEn Language rEcognition (BABELE), consisting of eight different languages, has been created. It includes a collection of different features of which the spoken language represents the most relevant, while each sample is also manually labelled with gender and age of the subjects.

arxiv情報

著者 Lucia Cascone,Michele Nappi,Fabio Narducci
発行日 2023-02-27 15:44:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク