Hierarchical I3D for Sign Spotting

要約

これまでのビジョンに基づく手話研究のほとんどは、短いビデオクリップから単一の手話クラスを予測することを目的とした孤立手話認識(Isolated Sign Language Recognition: ISLR)に集中してきました。ISLRには大きな進展があったが、実生活への応用は限られている。本論文では、連続した手話ビデオに含まれる手話を同時に識別し、位置を特定することを目的とする、手話スポッティングという困難なタスクに焦点を当てます。現在のISLRベースのモデルの限界に対処するため、我々は、様々な時間レベルでの表現を利用し、より正確な標識の位置特定を提供するために、粗いから細かいまでの時空間標識特徴を学習する階層的標識スポッティングアプローチを提案する。具体的には、既存の時空間I3Dモデルに階層的なネットワークヘッドを付加し、ネットワークの異なる層における特徴を利用する階層的サインI3Dモデル(HS-I3D)を開発する。HS-I3DをChaLearn 2022 Sign Spotting Challenge – MSSL trackで評価し、最新の0.607 F1スコアを達成し、コンペティションのトップ1受賞ソリューションとなった。

要約(オリジナル)

Most of the vision-based sign language research to date has focused on Isolated Sign Language Recognition (ISLR), where the objective is to predict a single sign class given a short video clip. Although there has been significant progress in ISLR, its real-life applications are limited. In this paper, we focus on the challenging task of Sign Spotting instead, where the goal is to simultaneously identify and localise signs in continuous co-articulated sign videos. To address the limitations of current ISLR-based models, we propose a hierarchical sign spotting approach which learns coarse-to-fine spatio-temporal sign features to take advantage of representations at various temporal levels and provide more precise sign localisation. Specifically, we develop Hierarchical Sign I3D model (HS-I3D) which consists of a hierarchical network head that is attached to the existing spatio-temporal I3D model to exploit features at different layers of the network. We evaluate HS-I3D on the ChaLearn 2022 Sign Spotting Challenge – MSSL track and achieve a state-of-the-art 0.607 F1 score, which was the top-1 winning solution of the competition.

arxiv情報

著者 Ryan Wong,Necati Cihan Camgöz,Richard Bowden
発行日 2022-10-03 14:07:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク