要約
人間の知性は、視覚的説明と言語的説明の両方に従って、あらゆる人物を検索できます。
ただし、現在のコンピューター ビジョン コミュニティは、特定の人物の再識別 (ReID) タスクをさまざまなシナリオで個別に研究しているため、現実世界での応用が制限されています。
この論文では、モデルが指定された画像または言語の命令に従って画像を取得することを要求する新しい instruct-ReID タスクを提案することで、この問題の解決に努めます。私たちの instruct-ReID は、より一般的な ReID 設定であり、既存の ReID タスクは次のように表示されます。
異なる命令を設計することで特殊なケースに対応します。
私たちは、この新しい環境での研究を促進するためのベースライン手法として、大規模な OmniReID ベンチマークと適応三重項損失を提案します。
実験結果は、OmniReID ベンチマークでトレーニングされたベースライン モデルが、従来の ReID の Market1501、CUHK03、MSMT17 で +0.6%、+1.4%、0.2% mAP、PRCC で +0.8%、+2.0%、+13.4% mAP を改善できることを示しています。
VC-Clothes、服装変更 ReID の LTCC、RGB 画像のみを使用した場合の服装テンプレート ベースの服装変更 ReID の COCAS+ real2 で +11.7% mAP、新しく定義された言語指示 ReID の COCAS+ real2 で +25.4% mAP。
データセット、モデル、コードは https://github.com/hwz-zju/Instruct-ReID で入手できます。
要約(オリジナル)
Human intelligence can retrieve any person according to both visual and language descriptions. However, the current computer vision community studies specific person re-identification (ReID) tasks in different scenarios separately, which limits the applications in the real world. This paper strives to resolve this problem by proposing a new instruct-ReID task that requires the model to retrieve images according to the given image or language instructions.Our instruct-ReID is a more general ReID setting, where existing ReID tasks can be viewed as special cases by designing different instructions. We propose a large-scale OmniReID benchmark and an adaptive triplet loss as a baseline method to facilitate research in this new setting. Experimental results show that the baseline model trained on our OmniReID benchmark can improve +0.6%, +1.4%, 0.2% mAP on Market1501, CUHK03, MSMT17 for traditional ReID, +0.8%, +2.0%, +13.4% mAP on PRCC, VC-Clothes, LTCC for clothes-changing ReID, +11.7% mAP on COCAS+ real2 for clothestemplate based clothes-changing ReID when using only RGB images, +25.4% mAP on COCAS+ real2 for our newly defined language-instructed ReID. The dataset, model, and code will be available at https://github.com/hwz-zju/Instruct-ReID.
arxiv情報
著者 | Weizhen He,Shixiang Tang,Yiheng Deng,Qihao Chen,Qingsong Xie,Yizhou Wang,Lei Bai,Feng Zhu,Rui Zhao,Wanli Ouyang,Donglian Qi,Yunfeng Yan |
発行日 | 2023-07-07 04:57:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google