MiVOLO: Multi-input Transformer for Age and Gender Estimation

要約

自然環境における年齢と性別の認識は非常に困難な作業です。状況の多様性、ポーズの複雑さ、画質の変化とは別に、顔が部分的または完全に遮られる場合があります。
最新のビジョントランスフォーマーを使用した、年齢と性別の推定のための簡単なアプローチである MiVOLO (Multi Input VOLO) を紹介します。
私たちの手法では、両方のタスクを統合されたデュアル入出力モデルに統合し、顔情報だけでなく人物画像データも活用します。
これにより、モデルの汎化能力が向上し、画像に顔が見えない場合でも満足のいく結果を提供できるようになります。
提案したモデルを評価するために、4 つの一般的なベンチマークで実験を実施し、リアルタイム処理機能を実証しながら最先端のパフォーマンスを実現します。
さらに、Open Images Dataset の画像に基づく新しいベンチマークを紹介します。
このベンチマークのグラウンド トゥルース アノテーションは人間のアノテーターによって細心の注意を払って生成されており、スマートな投票集計により高精度の回答が得られます。
さらに、モデルの年齢認識パフォーマンスを人間レベルの精度と比較し、大部分の年齢範囲にわたって人間を大幅に上回るパフォーマンスを示しました。
最後に、検証と推論のためのコードとともに、モデルへのパブリック アクセスを許可します。
さらに、使用されたデータセットに追加のアノテーションを提供し、新しいベンチマークを導入します。

要約(オリジナル)

Age and gender recognition in the wild is a highly challenging task: apart from the variability of conditions, pose complexities, and varying image quality, there are cases where the face is partially or completely occluded. We present MiVOLO (Multi Input VOLO), a straightforward approach for age and gender estimation using the latest vision transformer. Our method integrates both tasks into a unified dual input/output model, leveraging not only facial information but also person image data. This improves the generalization ability of our model and enables it to deliver satisfactory results even when the face is not visible in the image. To evaluate our proposed model, we conduct experiments on four popular benchmarks and achieve state-of-the-art performance, while demonstrating real-time processing capabilities. Additionally, we introduce a novel benchmark based on images from the Open Images Dataset. The ground truth annotations for this benchmark have been meticulously generated by human annotators, resulting in high accuracy answers due to the smart aggregation of votes. Furthermore, we compare our model’s age recognition performance with human-level accuracy and demonstrate that it significantly outperforms humans across a majority of age ranges. Finally, we grant public access to our models, along with the code for validation and inference. In addition, we provide extra annotations for used datasets and introduce our new benchmark.

arxiv情報

著者 Maksim Kuprashevich,Irina Tolstykh
発行日 2023-09-22 14:03:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, I.2.0 パーマリンク