Efficient Vision Language Model Fine-tuning for Text-based Person Anomaly Search

要約

このペーパーでは、テキストベースの人の異常検索(TPA)に関するWWW 2025チャレンジに対するHFUT-LMCチームのソリューションを紹介します。
この課題の主な目的は、歩行者画像の大きなライブラリ内で正常または異常な行動を示す歩行者を正確に特定することです。
従来のビデオ分析タスクとは異なり、TPAは、テキストの説明と視覚データの微妙な関係を理解し​​、解釈することを強調しています。
このタスクの複雑さは、モデルが個人を一致させるだけでなく、大規模な画像データセットのテキストの説明と一致させるだけでなく、同様の説明に直面したときに検索結果を正確に区別します。
これらの課題を克服するために、類似性カバレッジ分析(SCA)戦略を導入して、同様のテキストの説明によって引き起こされる認識の難易度に対処します。
この戦略は、微妙な違いを管理するモデルの能力を効果的に強化し、検索の精度と信頼性の両方を改善します。
提案されたソリューションは、この課題で優れたパフォーマンスを示しました。

要約(オリジナル)

This paper presents the HFUT-LMC team’s solution to the WWW 2025 challenge on Text-based Person Anomaly Search (TPAS). The primary objective of this challenge is to accurately identify pedestrians exhibiting either normal or abnormal behavior within a large library of pedestrian images. Unlike traditional video analysis tasks, TPAS significantly emphasizes understanding and interpreting the subtle relationships between text descriptions and visual data. The complexity of this task lies in the model’s need to not only match individuals to text descriptions in massive image datasets but also accurately differentiate between search results when faced with similar descriptions. To overcome these challenges, we introduce the Similarity Coverage Analysis (SCA) strategy to address the recognition difficulty caused by similar text descriptions. This strategy effectively enhances the model’s capacity to manage subtle differences, thus improving both the accuracy and reliability of the search. Our proposed solution demonstrated excellent performance in this challenge.

arxiv情報

著者 Jiayi He,Shengeng Tang,Ao Liu,Lechao Cheng,Jingjing Wu,Yanyan Wei
発行日 2025-02-05 14:45:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク