VLPose: Bridging the Domain Gap in Pose Estimation with Language-Vision Tuning

要約

ディープラーニング技術の進歩により、Human Pose Estimation (HPE) は自然なシナリオにおいて大幅な進歩を遂げました。
ただし、これらのモデルは、ドメインギャップのため、絵画や彫刻などの人工シナリオではパフォーマンスが低く、仮想現実や拡張現実の発展を制約します。
モデルのサイズが大きくなるにつれて、自然データと人工データの両方でモデル全体を再トレーニングすることは、計算コストが高くつき、非効率的になります。
私たちの研究は、効率的な調整戦略によって自然シナリオと人工シナリオの間の領域のギャップを埋めることを目的としています。
言語モデルの可能性を活用し、VLPose と呼ばれる新しいフレームワークを使用して、さまざまなシナリオにわたる従来の姿勢推定モデルの適応性を強化します。
VLPose は、言語と視覚の相乗効果を活用して、姿勢推定モデルの一般化と堅牢性を従来の領域を超えて拡張します。
私たちのアプローチでは、最先端のチューニング戦略と比較して、HumanArt と MSCOCO でそれぞれ 2.26% と 3.74% の改善が実証されました。

要約(オリジナル)

Thanks to advances in deep learning techniques, Human Pose Estimation (HPE) has achieved significant progress in natural scenarios. However, these models perform poorly in artificial scenarios such as painting and sculpture due to the domain gap, constraining the development of virtual reality and augmented reality. With the growth of model size, retraining the whole model on both natural and artificial data is computationally expensive and inefficient. Our research aims to bridge the domain gap between natural and artificial scenarios with efficient tuning strategies. Leveraging the potential of language models, we enhance the adaptability of traditional pose estimation models across diverse scenarios with a novel framework called VLPose. VLPose leverages the synergy between language and vision to extend the generalization and robustness of pose estimation models beyond the traditional domains. Our approach has demonstrated improvements of 2.26% and 3.74% on HumanArt and MSCOCO, respectively, compared to state-of-the-art tuning strategies.

arxiv情報

著者 Jingyao Li,Pengguang Chen,Xuan Ju,Hong Xu,Jiaya Jia
発行日 2024-02-22 11:21:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク