Exploring Lip Segmentation Techniques in Computer Vision: A Comparative Analysis

要約

唇のセグメンテーションは、コンピュータ ビジョン、特に唇の読み取りにおいて重要です。
顔のセグメンテーションに関する広範な研究にもかかわらず、唇のセグメンテーションはあまり注目されていません。
この研究の目的は、標準化された設定と公開されているデータセットを使用して、最先端の唇セグメンテーション モデルを比較することです。
EHANet、Mask2Former、BiSeNet V2、PIDNet、STDC1 の 5 つの技術は、報告されたパフォーマンス、推論時間、コードの可用性、最新性、人気に基づいて定性的に選択されます。
手動で注釈を付けた顔画像で構成される CelebAMask-HQ データセットは、選択したモデルの唇のセグメンテーション パフォーマンスを公正に評価するために使用されます。
推論実験は、限られた計算リソースをエミュレートするために Raspberry Pi4 で実行されます。
結果は、Mask2Former と EHANet が mIoU スコアの点で最高のパフォーマンスを示していることを示しています。
BiSeNet V2 は競争力のあるパフォーマンスを示しますが、PIDNet は再現率に優れていますが、精度が低くなります。
ほとんどのモデルは、Raspberry Pi4 上で 1000 ミリ秒から約 3000 ミリ秒の範囲の推論時間を示しますが、平均推論時間は PIDNet が最も短くなります。
この研究では、唇セグメンテーション モデルの包括的な評価を提供し、そのパフォーマンスと推論時間に焦点を当てています。
この発見は、軽量技術の開発に貢献し、特に IoT およびエッジ コンピューティングのシナリオにおける唇セグメンテーションの将来の進歩のためのベンチマークを確立します。

要約(オリジナル)

Lip segmentation is crucial in computer vision, especially for lip reading. Despite extensive face segmentation research, lip segmentation has received limited attention. The aim of this study is to compare state-of-the-art lip segmentation models using a standardized setting and a publicly available dataset. Five techniques, namely EHANet, Mask2Former, BiSeNet V2, PIDNet, and STDC1, are qualitatively selected based on their reported performance, inference time, code availability, recency, and popularity. The CelebAMask-HQ dataset, comprising manually annotated face images, is used to fairly assess the lip segmentation performance of the selected models. Inference experiments are conducted on a Raspberry Pi4 to emulate limited computational resources. The results show that Mask2Former and EHANet have the best performances in terms of mIoU score. BiSeNet V2 demonstrate competitive performance, while PIDNet excels in recall but has lower precision. Most models present inference time ranging from 1000 to around 3000 milliseconds on a Raspberry Pi4, with PIDNet having the lowest mean inference time. This study provides a comprehensive evaluation of lip segmentation models, highlighting their performance and inference times. The findings contribute to the development of lightweight techniques and establish benchmarks for future advances in lip segmentation, especially in IoT and edge computing scenarios.

arxiv情報

著者 Pietro B. S. Masur,Francisco Braulio Oliveira,Lucas Moreira Medino,Emanuel Huber,Milene Haraguchi Padilha,Cassio de Alcantara,Renata Sellaro
発行日 2023-11-20 18:23:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク