Harnessing the Power of MLLMs for Transferable Text-to-Image Person ReID

要約

テキストから画像への人物再識別 (ReID) は、テキストの説明に従って歩行者の画像を取得します。
テキストの説明に手動で注釈を付けるのは時間がかかり、既存のデータセットの規模が制限され、したがって ReID モデルの一般化能力が制限されます。
その結果、私たちは転送可能なテキストから画像への ReID 問題を研究します。そこでは、提案した大規模データベースでモデルをトレーニングし、評価のためにそれをさまざまなデータセットに直接展開します。
マルチモーダル大規模言語モデル (MLLM) を介して、大量のトレーニング データを取得します。
さらに、取得したテキスト記述を利用する際の 2 つの重要な課題を特定し、それに取り組みます。
まず、MLLM は同様の構造を持つ説明を生成する傾向があり、モデルが特定の文パターンに過剰適合する原因となります。
そこで、MLLM を使用してさまざまなテンプレートに従って画像にキャプションを付ける新しい方法を提案します。
これらのテンプレートは、大規模言語モデル (LLM) とのマルチターン対話を使用して取得されます。
したがって、多様なテキスト記述を含む大規模なデータセットを構築できます。
第 2 に、MLLM は誤った説明を生成する可能性があります。
そこで、画像と一致しない説明内の単語を自動的に識別する新しい方法を紹介します。
この方法は、1 つのテキストと画像内のすべてのパッチ トークン埋め込み間の類似性に基づいています。
次に、後続のトレーニング エポックでこれらの単語をより高い確率でマスクし、ノイズの多いテキストの説明の影響を軽減します。
実験結果は、私たちの方法がテキストから画像への直接転送の ReID パフォーマンスを大幅に向上させることを示しています。
事前トレーニングされたモデルの重みの利点を活用して、従来の評価設定でも最先端のパフォーマンスを実現します。

要約(オリジナル)

Text-to-image person re-identification (ReID) retrieves pedestrian images according to textual descriptions. Manually annotating textual descriptions is time-consuming, restricting the scale of existing datasets and therefore the generalization ability of ReID models. As a result, we study the transferable text-to-image ReID problem, where we train a model on our proposed large-scale database and directly deploy it to various datasets for evaluation. We obtain substantial training data via Multi-modal Large Language Models (MLLMs). Moreover, we identify and address two key challenges in utilizing the obtained textual descriptions. First, an MLLM tends to generate descriptions with similar structures, causing the model to overfit specific sentence patterns. Thus, we propose a novel method that uses MLLMs to caption images according to various templates. These templates are obtained using a multi-turn dialogue with a Large Language Model (LLM). Therefore, we can build a large-scale dataset with diverse textual descriptions. Second, an MLLM may produce incorrect descriptions. Hence, we introduce a novel method that automatically identifies words in a description that do not correspond with the image. This method is based on the similarity between one text and all patch token embeddings in the image. Then, we mask these words with a larger probability in the subsequent training epoch, alleviating the impact of noisy textual descriptions. The experimental results demonstrate that our methods significantly boost the direct transfer text-to-image ReID performance. Benefiting from the pre-trained model weights, we also achieve state-of-the-art performance in the traditional evaluation settings.

arxiv情報

著者 Wentao Tan,Changxing Ding,Jiayu Jiang,Fei Wang,Yibing Zhan,Dapeng Tao
発行日 2024-07-01 02:06:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク