Beyond Appearance: a Semantic Controllable Self-Supervised Learning Framework for Human-Centric Visual Tasks

要約

人間中心の視覚タスクは、その広範なアプリケーションにより、研究の注目を集めています。
この論文では、下流の人間中心のタスクに最大限の利益をもたらすことができる、大量のラベルのない人間の画像から一般的な人間の表現を学習することを目指しています。
このメソッドを SOLIDER と呼びます。これは、セマンティックに制御可能な自己教師あり学習フレームワークです。
既存の自己教師あり学習方法とは異なり、人間の画像からの事前知識を SOLIDER で利用して、疑似セマンティック ラベルを作成し、より多くのセマンティック情報を学習した表現にインポートします。
一方、下流のタスクが異なれば、意味情報と外観情報の比率も常に異なることに注意してください。
たとえば、人間の解析にはより多くのセマンティック情報が必要ですが、人物の再識別には識別目的でより多くの外観情報が必要です。
したがって、単一の学習表現がすべての要件に適合するわけではありません。
この問題を解決するために、SOLIDER はセマンティック コントローラーを使用した条件付きネットワークを導入します。
モデルがトレーニングされた後、ユーザーはコントローラーに値を送信して、意味情報の比率が異なる表現を生成できます。これにより、ダウンストリーム タスクのさまざまなニーズに適合できます。
最後に、SOLIDER は 6 つの下流の人間中心の視覚タスクで検証されます。
最新技術を凌駕し、これらのタスクの新しいベースラインを構築します。
コードは https://github.com/tinyvision/SOLIDER で公開されています。

要約(オリジナル)

Human-centric visual tasks have attracted increasing research attention due to their widespread applications. In this paper, we aim to learn a general human representation from massive unlabeled human images which can benefit downstream human-centric tasks to the maximum extent. We call this method SOLIDER, a Semantic cOntrollable seLf-supervIseD lEaRning framework. Unlike the existing self-supervised learning methods, prior knowledge from human images is utilized in SOLIDER to build pseudo semantic labels and import more semantic information into the learned representation. Meanwhile, we note that different downstream tasks always require different ratios of semantic information and appearance information. For example, human parsing requires more semantic information, while person re-identification needs more appearance information for identification purpose. So a single learned representation cannot fit for all requirements. To solve this problem, SOLIDER introduces a conditional network with a semantic controller. After the model is trained, users can send values to the controller to produce representations with different ratios of semantic information, which can fit different needs of downstream tasks. Finally, SOLIDER is verified on six downstream human-centric visual tasks. It outperforms state of the arts and builds new baselines for these tasks. The code is released in https://github.com/tinyvision/SOLIDER.

arxiv情報

著者 Weihua Chen,Xianzhe Xu,Jian Jia,Hao luo,Yaohua Wang,Fan Wang,Rong Jin,Xiuyu Sun
発行日 2023-03-30 17:59:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク