HaSPeR: An Image Repository for Hand Shadow Puppet Recognition

要約

ShadowgraphyまたはOmbromanieとも呼ばれるハンドシャドウパペットは、生き物の幻想を生み出すためにハンドシャドウが平らな表面に投影される演劇芸術とストーリーテリングの一種です。
熟練したパフォーマーは、動物や物の影に似るために、手の位置、指の動き、器用なジェスチャーによってこれらのシルエットを作成します。
開業医の不足と人々の娯楽基準の地震の変化により、この芸術形式は絶滅の危機にonしています。
その保存を促進し、より多くの聴衆に増殖させるために、$ {\ rm h {\ small a} sp {\ small e} r} $を紹介します。
プロのハンドシャドウパペットクリップの両方。
データセットの詳細な統計分析を提供し、ベースラインを確立するために、幅広い前提型画像分類モデルを使用します。
私たちの調査結果は、注意ベースのトランスアーキテクチャよりもスキップ接続された畳み込みモデルの実質的なパフォーマンスの優位性を示しています。
また、モバイルアプリケーションや埋め込みデバイスに適したMobileNETV2などの軽量モデルが比較的うまく機能することがわかります。
このような低遅延アーキテクチャは、Ombromanie Teaching Toolsの開発に役立つ可能性があると推測し、この保険を調査するためのプロトタイプアプリケーションを作成します。
最適なモデルのresnet34を脚光を浴びている状態に保ち、包括的な機能空間、説明、エラー分析を実施して、意思決定プロセスに関する洞察を得ます。
私たちの知る限り、これは最初に文書化されたデータセットと研究の努力であり、この死にゆく芸術を将来の世代のために維持し、コンピュータービジョンアプローチを備えています。
私たちのコードとデータは公開されます。

要約(オリジナル)

Hand shadow puppetry, also known as shadowgraphy or ombromanie, is a form of theatrical art and storytelling where hand shadows are projected onto flat surfaces to create illusions of living creatures. The skilled performers create these silhouettes by hand positioning, finger movements, and dexterous gestures to resemble shadows of animals and objects. Due to the lack of practitioners and a seismic shift in people’s entertainment standards, this art form is on the verge of extinction. To facilitate its preservation and proliferate it to a wider audience, we introduce ${\rm H{\small A}SP{\small E}R}$, a novel dataset consisting of 15,000 images of hand shadow puppets across 15 classes extracted from both professional and amateur hand shadow puppeteer clips. We provide a detailed statistical analysis of the dataset and employ a range of pretrained image classification models to establish baselines. Our findings show a substantial performance superiority of skip-connected convolutional models over attention-based transformer architectures. We also find that lightweight models, such as MobileNetV2, suited for mobile applications and embedded devices, perform comparatively well. We surmise that such low-latency architectures can be useful in developing ombromanie teaching tools, and we create a prototype application to explore this surmission. Keeping the best-performing model ResNet34 under the limelight, we conduct comprehensive feature-spatial, explainability, and error analyses to gain insights into its decision-making process. To the best of our knowledge, this is the first documented dataset and research endeavor to preserve this dying art for future generations, with computer vision approaches. Our code and data will be publicly available.

arxiv情報

著者 Syed Rifat Raiyan,Zibran Zarif Amio,Sabbir Ahmed
発行日 2025-02-14 10:53:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク