Leveraging Self-Supervised Learning for Scene Recognition in Child Sexual Abuse Imagery

要約

21世紀の犯罪はバーチャルな世界とリアルな世界に分かれている。しかし前者は、後者における人々の幸福と安全に対する世界的な脅威となっている。犯罪がもたらす課題には、世界的な協力体制で立ち向かわなければならない。そして、増え続けるオンライン犯罪に対抗するためには、自動化されていながら信頼できるツールに、これまで以上に頼らなければならない。毎年1,000万件を超える児童性的虐待の報告が、米国行方不明・被搾取児童対策センターに提出されているが、その80%以上がオンラインに起因している。そのため、調査センターやクリアリングハウスは、すべての画像を手作業で処理し、正しく調査することはできません。そのため、このようなデータを安全かつ効率的に処理できる信頼性の高い自動化ツールが最も重要である。この意味で、シーン認識タスクは、環境中の文脈的な手がかりを探すものであり、機密性の高い素材について訓練することなく、児童性的虐待データをグループ化し、分類することができる。児童性的虐待画像を扱うことの希少性と限界から、ラベル付けされていないデータを活用する機械学習手法である自己教師あり学習が導かれ、強力な表現が生成される。この研究は、シーン中心のデータで事前に訓練された自己教師付きディープラーニングモデルが、私たちの屋内シーン分類タスクで71.6%のバランスのとれた精度に達することができ、平均して、完全教師ありバージョンよりも2.2パーセンテージポイント優れたパフォーマンスを達成できることを示している。我々はブラジル連邦警察の専門家と協力し、実際の児童虐待資料で我々の屋内分類モデルを評価した。その結果、広く使われているシーンデータセットで観察される特徴と、敏感な資料で描写される特徴との間に顕著な不一致があることが示された。

要約(オリジナル)

Crime in the 21st century is split into a virtual and real world. However, the former has become a global menace to people’s well-being and security in the latter. The challenges it presents must be faced with unified global cooperation, and we must rely more than ever on automated yet trustworthy tools to combat the ever-growing nature of online offenses. Over 10 million child sexual abuse reports are submitted to the US National Center for Missing & Exploited Children every year, and over 80% originated from online sources. Therefore, investigation centers and clearinghouses cannot manually process and correctly investigate all imagery. In light of that, reliable automated tools that can securely and efficiently deal with this data are paramount. In this sense, the scene recognition task looks for contextual cues in the environment, being able to group and classify child sexual abuse data without requiring to be trained on sensitive material. The scarcity and limitations of working with child sexual abuse images lead to self-supervised learning, a machine-learning methodology that leverages unlabeled data to produce powerful representations that can be more easily transferred to target tasks. This work shows that self-supervised deep learning models pre-trained on scene-centric data can reach 71.6% balanced accuracy on our indoor scene classification task and, on average, 2.2 percentage points better performance than a fully supervised version. We cooperate with Brazilian Federal Police experts to evaluate our indoor classification model on actual child abuse material. The results demonstrate a notable discrepancy between the features observed in widely used scene datasets and those depicted on sensitive materials.

arxiv情報

著者 Pedro H. V. Valois,João Macedo,Leo S. F. Ribeiro,Jefersson A. dos Santos,Sandra Avila
発行日 2024-03-02 11:44:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.CY, cs.LG パーマリンク