Data Augmentation for Text-based Person Retrieval Using Large Language Models

要約

テキストベースの人物検索 (TPR) は、テキスト クエリで指定された説明に一致する人物画像を取得することを目的としています。
TPR モデルのパフォーマンス向上は、教師ありトレーニングの高品質データに依存しています。
ただし、高価なアノテーションとプライバシー保護のため、大規模で高品質の TPR データセットを構築することは困難です。
最近、大規模言語モデル (LLM) は、多くの NLP タスクにおいて人間のパフォーマンスに迫り、あるいはそれを超えており、高品質の TPR データセットを拡張する可能性が生まれています。
この論文では、TPR のための LLM ベースのデータ拡張 (LLM-DA) 手法を提案します。
LLM-DA は、LLM を使用して現在の TPR データセット内のテキストを書き換え、データセットの高品質な拡張を簡潔かつ効率的に実現します。
これらの書き換えられたテキストは、元の主要な概念と意味情報を保持しながら、語彙と文構造の多様性を高めることができます。
LLM の幻覚を軽減するために、LLM-DA は、不誠実に書き換えられたテキストを除外するテキスト忠実度フィルター (TFF) を導入しています。
元のテキストと拡張テキストの寄与のバランスをとるために、トレーニングに使用される元のテキストと拡張テキストの割合を制御するバランス サンプリング戦略 (BSS) が提案されています。
LLM-DA は、さまざまな TPR モデルに簡単に統合できるプラグアンドプレイ方式です。
3 つの TPR ベンチマークに関する包括的な実験により、LLM-DA が現在の TPR モデルの検索パフォーマンスを向上できることが示されました。

要約(オリジナル)

Text-based Person Retrieval (TPR) aims to retrieve person images that match the description given a text query. The performance improvement of the TPR model relies on high-quality data for supervised training. However, it is difficult to construct a large-scale, high-quality TPR dataset due to expensive annotation and privacy protection. Recently, Large Language Models (LLMs) have approached or even surpassed human performance on many NLP tasks, creating the possibility to expand high-quality TPR datasets. This paper proposes an LLM-based Data Augmentation (LLM-DA) method for TPR. LLM-DA uses LLMs to rewrite the text in the current TPR dataset, achieving high-quality expansion of the dataset concisely and efficiently. These rewritten texts are able to increase the diversity of vocabulary and sentence structure while retaining the original key concepts and semantic information. In order to alleviate the hallucinations of LLMs, LLM-DA introduces a Text Faithfulness Filter (TFF) to filter out unfaithful rewritten text. To balance the contributions of original text and augmented text, a Balanced Sampling Strategy (BSS) is proposed to control the proportion of original text and augmented text used for training. LLM-DA is a plug-and-play method that can be easily integrated into various TPR models. Comprehensive experiments on three TPR benchmarks show that LLM-DA can improve the retrieval performance of current TPR models.

arxiv情報

著者 Zheng Li,Lijia Si,Caili Guo,Yang Yang,Qiushi Cao
発行日 2024-05-20 11:57:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク