Instruct-ReID: A Multi-purpose Person Re-identification Task with Instructions

要約

人間の知性は、視覚的説明と言語的説明の両方に従って、あらゆる人物を検索できます。
ただし、現在のコンピューター ビジョン コミュニティは、特定の人物の再識別 (ReID) タスクをさまざまなシナリオで個別に研究しているため、現実世界での応用が制限されています。
この論文では、モデルが指定された画像または言語の命令に従って画像を取得することを要求する新しい instruct-ReID タスクを提案することで、この問題の解決に努めます。
私たちの instruct-ReID はより一般的な ReID 設定であり、異なる命令を設計することで既存の 6 つの ReID タスクを特殊なケースとして見ることができます。
私たちは、この新しい環境での研究を促進するためのベースライン手法として、大規模な OmniReID ベンチマークと適応三重項損失を提案します。
実験結果は、微調整なしで OmniReID ベンチマークでトレーニングされた、提案された多目的 ReID モデルが、Market1501、MSMT17、CUHK03 の従来の ReID の mAP を +0.5%、+0.6%、+7.7%、+6.4%、+7.7% 改善できることを示しています。
+7.1%、服装変更 ReID の場合は PRCC、VC-Clothes、LTCC で +11.2% mAP、RGB 画像のみを使用する場合の服装テンプレートベースの服装変更 ReID の場合は COCAS+ real2 で +11.7% mAP、COCAS+ real2 では +24.9% mAP
新しく定義された言語指示 ReID の場合、可視赤外線 ReID の LLCM で +4.3%、テキストから画像への ReID の CUHK-PEDES で +2.6%。
データセット、モデル、コードは https://github.com/hwz-zju/Instruct-ReID で入手できます。

要約(オリジナル)

Human intelligence can retrieve any person according to both visual and language descriptions. However, the current computer vision community studies specific person re-identification (ReID) tasks in different scenarios separately, which limits the applications in the real world. This paper strives to resolve this problem by proposing a new instruct-ReID task that requires the model to retrieve images according to the given image or language instructions. Our instruct-ReID is a more general ReID setting, where existing 6 ReID tasks can be viewed as special cases by designing different instructions. We propose a large-scale OmniReID benchmark and an adaptive triplet loss as a baseline method to facilitate research in this new setting. Experimental results show that the proposed multi-purpose ReID model, trained on our OmniReID benchmark without fine-tuning, can improve +0.5%, +0.6%, +7.7% mAP on Market1501, MSMT17, CUHK03 for traditional ReID, +6.4%, +7.1%, +11.2% mAP on PRCC, VC-Clothes, LTCC for clothes-changing ReID, +11.7% mAP on COCAS+ real2 for clothes template based clothes-changing ReID when using only RGB images, +24.9% mAP on COCAS+ real2 for our newly defined language-instructed ReID, +4.3% on LLCM for visible-infrared ReID, +2.6% on CUHK-PEDES for text-to-image ReID. The datasets, the model, and code will be available at https://github.com/hwz-zju/Instruct-ReID.

arxiv情報

著者 Weizhen He,Yiheng Deng,Shixiang Tang,Qihao Chen,Qingsong Xie,Yizhou Wang,Lei Bai,Feng Zhu,Rui Zhao,Wanli Ouyang,Donglian Qi,Yunfeng Yan
発行日 2023-12-31 16:54:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク