Learning Transferable Pedestrian Representation from Multimodal Information Supervision

要約

タイトル:マルチモーダル情報に基づく学習可能な歩行者表現の転移

要約:

– これまでの無監督人物再識別(reID)に関する研究では、ラベルのない個人画像で事前訓練を行うことで、ImageNetでの事前訓練よりも優れたパフォーマンスを達成していることが示されている。
– ただし、これらの事前訓練法はreIDのために特別に設計されており、他の歩行者解析タスクに柔軟に適応することができない。
– 本論文では、マルチモーダル情報を用いてさまざまな歩行者解析タスクを強化するための学習可能な表現を習得するVAL-PATという新しいフレームワークを提案する。
– このフレームワークを訓練するために、自己教師あり相補学習、画像テキスト相補学習、そして多属性分類の3つの学習目的を導入する。
– 自己教師あり相補学習では、固有の歩行者の特性を学習することを促し、画像テキスト相補学習ではモデルが歩行者の外観情報に注力するように誘導する。
– 一方、多属性分類は、細かい歩行者情報を発掘するために、モデルが属性を認識することを促す。
– まず、各画像にテキストと属性注釈が含まれるLUPerson-TAデータセットで事前訓練を行い、その後、学習済み表現を人物再識別、人物属性認識、テキストベースの人物検索などの様々な下流タスクに転移する。
– 幅広い実験により、このフレームワークが一般的な歩行者表現の学習を支援し、様々な歩行者解析タスクで有望な結果をもたらすことが示されている。

要約(オリジナル)

Recent researches on unsupervised person re-identification~(reID) have demonstrated that pre-training on unlabeled person images achieves superior performance on downstream reID tasks than pre-training on ImageNet. However, those pre-trained methods are specifically designed for reID and suffer flexible adaption to other pedestrian analysis tasks. In this paper, we propose VAL-PAT, a novel framework that learns transferable representations to enhance various pedestrian analysis tasks with multimodal information. To train our framework, we introduce three learning objectives, \emph{i.e.,} self-supervised contrastive learning, image-text contrastive learning and multi-attribute classification. The self-supervised contrastive learning facilitates the learning of the intrinsic pedestrian properties, while the image-text contrastive learning guides the model to focus on the appearance information of pedestrians.Meanwhile, multi-attribute classification encourages the model to recognize attributes to excavate fine-grained pedestrian information. We first perform pre-training on LUPerson-TA dataset, where each image contains text and attribute annotations, and then transfer the learned representations to various downstream tasks, including person reID, person attribute recognition and text-based person search. Extensive experiments demonstrate that our framework facilitates the learning of general pedestrian representations and thus leads to promising results on various pedestrian analysis tasks.

arxiv情報

著者 Liping Bao,Longhui Wei,Xiaoyu Qiu,Wengang Zhou,Houqiang Li,Qi Tian
発行日 2023-04-12 01:20:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク