要約
マルチモーダル大規模言語モデル (MLLM) は、多くのタスクで満足のいく結果を達成しました。
ただし、個人再識別 (ReID) のタスクにおけるそれらのパフォーマンスは、現在まで調査されていません。
この論文では、ReID のタスクにそれらを適応させる方法を調査します。
直感的なアイデアは、ReID 画像テキスト データセットを使用して MLLM を微調整し、そのビジュアル エンコーダーを ReID のバックボーンとして使用することです。
ただし、明らかな問題が依然として 2 つ存在します。(1) ReID 用の命令の設計では、MLLM が特定の命令にオーバーフィットする可能性があり、さまざまな命令を設計するとコストが高くなります。
(2) LLM からの潜像特徴ベクトルは損失計算に関与しません。
画像とテキストの特徴を調整する指導的な学習では、間接的な最適化が行われ、学習目標が特徴を適切に活用せず、人物の特徴学習の効果が制限されます。
これらの問題に対処するために、この論文では MLLMReID (Multimodal Large Language Model-based ReID) を提案します。
まず、私たちは共通命令を提案しました。これは、LLM の本質的な能力を活用して書き込みを継続し、複雑で多様な命令設計を回避するシンプルなアプローチです。
次に、LLM が出力する画像の潜在画像特徴ベクトルを ReID タスクで効果的に利用する DirectReID を提案しました。
実験結果は、我々の方法の優位性を示しています。
コードを GitHub でオープンソース化します。
要約(オリジナル)
Multimodal large language models (MLLM) have achieved satisfactory results in many tasks. However, their performance in the task of person re-identification (ReID) has not been explored to date. This paper will investigate how to adapt them for the task of ReID. An intuitive idea is to fine-tune MLLM with ReID image-text datasets, and then use their visual encoder as a backbone for ReID. However, there still exist two apparent issues: (1) Designing instructions for ReID, MLLMs may overfit specific instructions, and designing a variety of instructions will lead to higher costs. (2) Latent image feature vectors from LLMs are not involved in loss computation. Instructional learning, aligning image-text features, results in indirect optimization and a learning objective that inadequately utilizes features, limiting effectiveness in person feature learning. To address these problems, this paper proposes MLLMReID: Multimodal Large Language Model-based ReID. Firstly, we proposed Common Instruction, a simple approach that leverages the essence ability of LLMs to continue writing, avoiding complex and diverse instruction design. Secondly, we proposed DirectReID, which effectively employs the latent image feature vectors of images outputted by LLMs in ReID tasks. The experimental results demonstrate the superiority of our method. We will open-source the code on GitHub.
arxiv情報
著者 | Shan Yang,Yongfei Zhang |
発行日 | 2024-01-24 03:07:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google