要約
人間の知性は、視覚と言語の両方の説明に従って、すべての人を取得できます。
ただし、現在のコンピュータービジョンコミュニティは、特定の人の再識別(REID)のタスクを別々に研究しているため、現実世界のアプリケーションが制限されています。
この論文は、与えられた画像または言語の指示に従って画像を取得するためにモデルが必要とする新しい指示REIDタスクを提案することにより、この問題を解決するよう努めています。
Instruct-reidは、一般的なリード設定の最初の調査であり、既存の6つのReidタスクをさまざまな指示を割り当てることで特別なケースと見なすことができます。
この新しい指示REIDタスクの研究を促進するために、多様なデータと包括的な評価方法を備えた大規模なOmnireid ++ベンチマークを提案します。たとえば、タスク固有およびタスクフリーの評価設定。
タスク固有の評価設定では、ギャラリーセットは特定のReidタスクに従って分類されます。
統一されたフレームワーク内でさまざまな検索タスクを処理するための適応的なトリプレット損失を備えた新しいベースラインモデルIRMを提案します。
ターゲットパーソン画像がタスクに依存しないギャラリーセットから取得されるタスクフリー評価設定の場合、新しいメモリバンクアシスト学習を備えたIRM ++と呼ばれる新しい方法をさらに提案します。
Omnireid ++ベンチマークに関するIRMおよびIRM ++の広範な評価は、提案された方法の優位性を示し、10のテストセットで最先端のパフォーマンスを達成します。
データセット、モデル、およびコードはhttps://github.com/hwz-zju/instruct-reidで入手できます
要約(オリジナル)
Human intelligence can retrieve any person according to both visual and language descriptions. However, the current computer vision community studies specific person re-identification (ReID) tasks in different scenarios separately, which limits the applications in the real world. This paper strives to resolve this problem by proposing a novel instruct-ReID task that requires the model to retrieve images according to the given image or language instructions. Instruct-ReID is the first exploration of a general ReID setting, where existing 6 ReID tasks can be viewed as special cases by assigning different instructions. To facilitate research in this new instruct-ReID task, we propose a large-scale OmniReID++ benchmark equipped with diverse data and comprehensive evaluation methods e.g., task specific and task-free evaluation settings. In the task-specific evaluation setting, gallery sets are categorized according to specific ReID tasks. We propose a novel baseline model, IRM, with an adaptive triplet loss to handle various retrieval tasks within a unified framework. For task-free evaluation setting, where target person images are retrieved from task-agnostic gallery sets, we further propose a new method called IRM++ with novel memory bank-assisted learning. Extensive evaluations of IRM and IRM++ on OmniReID++ benchmark demonstrate the superiority of our proposed methods, achieving state-of-the-art performance on 10 test sets. The datasets, the model, and the code will be available at https://github.com/hwz-zju/Instruct-ReID
arxiv情報
著者 | Weizhen He,Yiheng Deng,Yunfeng Yan,Feng Zhu,Yizhou Wang,Lei Bai,Qingsong Xie,Donglian Qi,Wanli Ouyang,Shixiang Tang |
発行日 | 2025-04-29 11:49:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google