Domain-Adaptive Self-Supervised Pre-Training for Face & Body Detection in Drawings

要約

【タイトル】ドローイングにおける顔と身体の検出のためのドメイン適応型自己教示事前学習

【要約】
– ドローイングは図像的抽象化とコミュニケーションの強力な手段である。
– コンピュータビジョンとコンピュータグラフィックスのコミュニティにとって、デジタルアート、漫画、アニメなど多様な形式のドローイングを理解することは重要な課題である。
– コミック本やアニメから大量のデジタル化されたドローイングがあるが、手法によっては多様なスタイル変化が含まれ、特定の領域に特化した認識器のトレーニングのために高価な手動ラベリングが必要である。
– この作業では、教師-生徒ネットワークに基づいた自己教示学習を使用して、修正された生徒ネットワークの更新設計を組み合わせ、顔と身体の検出器を構築する方法を示す。
– 私たちのセットアップは、ターゲットドメインから大量の未ラベル化データを利用することを可能にし、そのうちの一部にのみラベルが付与されたものがある場合、トレーニングにおいて少ないアノテーション労力で済む。
– また、スタイル変換を私たちの学習パイプラインに組み込むことで、実世界の画像(つまり、リアルワールドからの画像)から大量のドメイン外ラベル付け画像を起動して検出器をブートストラップすることができることを示した。
– 私たちの組み合わせアーキテクチャは、最小限の注釈労力を使用して、SOTAおよび近似SOTAパフォーマンスを発揮する検出器を生成することができる。
– 私たちのコードは https://github.com/barisbatuhan/DASS_Detector からアクセスできる。

要約(オリジナル)

Drawings are powerful means of pictorial abstraction and communication. Understanding diverse forms of drawings, including digital arts, cartoons, and comics, has been a major problem of interest for the computer vision and computer graphics communities. Although there are large amounts of digitized drawings from comic books and cartoons, they contain vast stylistic variations, which necessitate expensive manual labeling for training domain-specific recognizers. In this work, we show how self-supervised learning, based on a teacher-student network with a modified student network update design, can be used to build face and body detectors. Our setup allows exploiting large amounts of unlabeled data from the target domain when labels are provided for only a small subset of it. We further demonstrate that style transfer can be incorporated into our learning pipeline to bootstrap detectors using a vast amount of out-of-domain labeled images from natural images (i.e., images from the real world). Our combined architecture yields detectors with state-of-the-art (SOTA) and near-SOTA performance using minimal annotation effort. Our code can be accessed from https://github.com/barisbatuhan/DASS_Detector.

arxiv情報

著者 Barış Batuhan Topal,Deniz Yuret,Tevfik Metin Sezgin
発行日 2023-04-25 10:38:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG パーマリンク