要約
非言語コミュニケーションの言語としてのジェスチャーは、17 世紀から理論的に確立されてきました。
ただし、視覚芸術との関連性は散発的にしか表現されていません。
これは主に、従来は手作業で処理しなければならなかった膨大な量のデータが原因である可能性があります。
しかし、デジタル化の着実な進展に伴い、ますます多くの歴史的遺物が索引付けされ、一般に公開されており、同様の身体の星座や姿勢を持つ美術史的モチーフを自動的に検索する必要が生じています。
アートの領域は、そのスタイルの違いにより、人間の姿勢を推定するための既存の現実世界のデータ セットとは大きく異なるため、これは新たな課題を提示します。
この論文では、美術史的画像における人間のポーズを推定するための新しいアプローチを提案します。
事前にトレーニングされたモデルまたはスタイル転送によってドメインのギャップを埋めようとする以前の研究とは対照的に、オブジェクトとキーポイントの検出の両方に半教師あり学習を提案します。
さらに、境界ボックスと人物のキーポイント注釈の両方を含む、新しいドメイン固有のアート データ セットを紹介します。
私たちのアプローチは、事前トレーニング済みのモデルやスタイル転送を使用する方法よりもはるかに優れた結果を達成します。
要約(オリジナル)
Gesture as language of non-verbal communication has been theoretically established since the 17th century. However, its relevance for the visual arts has been expressed only sporadically. This may be primarily due to the sheer overwhelming amount of data that traditionally had to be processed by hand. With the steady progress of digitization, though, a growing number of historical artifacts have been indexed and made available to the public, creating a need for automatic retrieval of art-historical motifs with similar body constellations or poses. Since the domain of art differs significantly from existing real-world data sets for human pose estimation due to its style variance, this presents new challenges. In this paper, we propose a novel approach to estimate human poses in art-historical images. In contrast to previous work that attempts to bridge the domain gap with pre-trained models or through style transfer, we suggest semi-supervised learning for both object and keypoint detection. Furthermore, we introduce a novel domain-specific art data set that includes both bounding box and keypoint annotations of human figures. Our approach achieves significantly better results than methods that use pre-trained models or style transfer.
arxiv情報
著者 | Matthias Springstein,Stefanie Schneider,Christian Althaus,Ralph Ewerth |
発行日 | 2022-08-15 11:08:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google