Underage Detection through a Multi-Task and MultiAge Approach for Screening Minors in Unconstrained Imagery

要約

制約のない画像における未成年者の正確な自動スクリーニングには、分布のシフトに堅牢で、公開されているデータでの少ない代表者に弾力性のあるモデルが必要です。
これらの問題を克服するために、1つの年齢回帰ヘッドと4つのバイナリのアンダーエージヘッドを共有するコンパクトな2層MLPと結合する凍結されたFarl視力障害バックボーンに基づいて、凍結したFarl視力障害のバックボーンに基づいて専用/オーバーエージの識別タスクを備えたマルチタスクアーキテクチャを提案します。
重度のクラスの不均衡に対処するために、確率的最適化中に12の年齢ビンを均等にする$ \ alpha $ lecletedフォーカルスタイルの損失と年齢バランスのとれたミニバッチサンプリングを導入します。
損失からエッジのケースを除去する年齢の隙間により、さらなる改善が達成されます。
さらに、303kのクリーニングトレーニング画像と110kのテスト画像を使用して、全体的な未成年のベンチマークを提案することにより、厳密な評価を設定し、「Asores-39K」制限された全体的なテストの両方を定義します。
実世界のシフト。
再サンプリングと年齢のギャップでクリーニングされた総合セットで訓練されたマルチギージモデル「F」は、ASORES-39K制限テストのルート平均式エラーを5.733(年齢のみのベースライン)から5.656歳まで低下させ、F2スコア0.801から0.857のF2スコアから1%の誤ったadult速度で18歳未満の検出を低下させます。
Aswift-20Kの野生データへのドメインシフトでは、同じ構成が0.99のリコールをほぼ維持し、年齢のみのベースラインに関してF2を0.742から0.833に増やし、分布シフト下での強い一般化を示します。
12歳未満および15歳未満のタスクの場合、F2のそれぞれのブーストは、それぞれ0.666から0.955、0.689から0.916です。

要約(オリジナル)

Accurate automatic screening of minors in unconstrained images demands models that are robust to distribution shift and resilient to the children under-representation in publicly available data. To overcome these issues, we propose a multi-task architecture with dedicated under/over-age discrimination tasks based on a frozen FaRL vision-language backbone joined with a compact two-layer MLP that shares features across one age-regression head and four binary under-age heads for age thresholds of 12, 15, 18, and 21 years, focusing on the legally critical age range. To address the severe class imbalance, we introduce an $\alpha$-reweighted focal-style loss and age-balanced mini-batch sampling, which equalizes twelve age bins during stochastic optimization. Further improvement is achieved with an age gap that removes edge cases from the loss. Moreover, we set a rigorous evaluation by proposing the Overall Under-Age Benchmark, with 303k cleaned training images and 110k test images, defining both the ‘ASORES-39k’ restricted overall test, which removes the noisiest domains, and the age estimation wild shifts test ‘ASWIFT-20k’ of 20k-images, stressing extreme pose ($>$45{\deg}), expression, and low image quality to emulate real-world shifts. Trained on the cleaned overall set with resampling and age gap, our multiage model ‘F’ lowers the root-mean-square-error on the ASORES-39k restricted test from 5.733 (age-only baseline) to 5.656 years and lifts under-18 detection from F2 score of 0.801 to 0.857 at 1% false-adult rate. Under the domain shift to the wild data of ASWIFT-20k, the same configuration nearly sustains 0.99 recall while boosting F2 from 0.742 to 0.833 with respect to the age-only baseline, demonstrating strong generalization under distribution shift. For the under-12 and under-15 tasks, the respective boosts in F2 are from 0.666 to 0.955 and from 0.689 to 0.916, respectively.

arxiv情報

著者 Christopher Gaul,Eduardo Fidalgo,Enrique Alegre,Rocío Alaiz Rodríguez,Eri Pérez Corral
発行日 2025-06-12 13:36:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク