FocusCLIP: Multimodal Subject-Level Guidance for Zero-Shot Transfer in Human-Centric Tasks

要約

私たちは、被験者レベルのガイダンス(ターゲット固有の監視のための特殊なメカニズム)を CLIP フレームワークに統合し、人間中心のタスクでのゼロショット転送を改善する FocusCLIP を提案します。
私たちの斬新な貢献により、ビジョンとテキストの両方の面で CLIP が強化されます。
視覚面では、人間の視覚的注意メカニズムをエミュレートする ROI ヒートマップを組み込み、被写体に関連する画像領域を強調します。
テキスト側では、人間のポーズの説明を導入して、豊富なコンテキスト情報を提供します。
人間中心のタスクの場合、FocusCLIP は MPII Human Pose データセットの画像を使用してトレーニングされます。
提案されたアプローチは、3 つの人間中心のタスクをカバーする 5 つのこれまでにないデータセット全体で、CLIP を平均 8.61% 上回りました。
FocusCLIP は、CLIP の 25.04% と比較して、33.65% の平均精度を達成しました。
アクティビティ認識では 3.98%、年齢分類では 14.78%、感情認識では 7.06% の向上が観察されました。
さらに、提案したシングルショット LLM プロンプト戦略を使用して、人間中心のタスクのためのマルチモーダル学習のさらなる研究を促進するために、高品質の MPII ポーズ記述データセットをリリースします。
さらに、人間中心ではないタスクに対する被験者レベルの監督の有効性も実証します。
FocusCLIP は、CUB データセットを使用したゼロショット鳥分類において、CLIP と比較して 2.47% の向上を示しています。
私たちの調査結果は、下流のパフォーマンスを向上させるために、被験者レベルのガイダンスを一般的な事前トレーニング方法と統合する可能性を強調しています。

要約(オリジナル)

We propose FocusCLIP, integrating subject-level guidance–a specialized mechanism for target-specific supervision–into the CLIP framework for improved zero-shot transfer on human-centric tasks. Our novel contributions enhance CLIP on both the vision and text sides. On the vision side, we incorporate ROI heatmaps emulating human visual attention mechanisms to emphasize subject-relevant image regions. On the text side, we introduce human pose descriptions to provide rich contextual information. For human-centric tasks, FocusCLIP is trained with images from the MPII Human Pose dataset. The proposed approach surpassed CLIP by an average of 8.61% across five previously unseen datasets covering three human-centric tasks. FocusCLIP achieved an average accuracy of 33.65% compared to 25.04% by CLIP. We observed a 3.98% improvement in activity recognition, a 14.78% improvement in age classification, and a 7.06% improvement in emotion recognition. Moreover, using our proposed single-shot LLM prompting strategy, we release a high-quality MPII Pose Descriptions dataset to encourage further research in multimodal learning for human-centric tasks. Furthermore, we also demonstrate the effectiveness of our subject-level supervision on non-human-centric tasks. FocusCLIP shows a 2.47% improvement over CLIP in zero-shot bird classification using the CUB dataset. Our findings emphasize the potential of integrating subject-level guidance with general pretraining methods for enhanced downstream performance.

arxiv情報

著者 Muhammad Saif Ullah Khan,Muhammad Ferjad Naeem,Federico Tombari,Luc Van Gool,Didier Stricker,Muhammad Zeshan Afzal
発行日 2024-03-25 08:45:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク