要約
この作業では、BERT の事前トレーニングの成功を活用し、ドメイン固有の統計をモデル化して、手話認識~(SLR) モデルを強化することに専念しています。
手話表現における手と体の優位性を考慮して、ポーズ トリプレット ユニットとして整理し、フレーム単位で Transformer バックボーンに入力します。
事前トレーニングは、破損した入力シーケンスからマスクされたトリプレット ユニットを再構築することによって実行されます。これにより、内部および外部のトリプレット ユニット間の階層的相関コンテキスト キューが学習されます。
特に、BERT の高度にセマンティックな単語トークンとは異なり、ポーズ ユニットは元々連続空間に配置された低レベルの信号であり、BERT クロスエントロピー目的の直接採用を妨げています。
この目的のために、トリプレットユニットのトークン化を結合することで、このセマンティックギャップを埋めます。
セマンティック ジェスチャ/身体状態を表すポーズ トリプレット ユニットから個別の疑似ラベルを適応的に抽出します。
事前トレーニングの後、新しく追加されたタスク固有のレイヤーと連携して、ダウンストリーム SLR タスクで事前トレーニング済みのエンコーダーを微調整します。
提案された方法の有効性を検証するために広範な実験が行われ、4つのベンチマークすべてで新しい最先端のパフォーマンスが達成され、注目に値します。
要約(オリジナル)
In this work, we are dedicated to leveraging the BERT pre-training success and modeling the domain-specific statistics to fertilize the sign language recognition~(SLR) model. Considering the dominance of hand and body in sign language expression, we organize them as pose triplet units and feed them into the Transformer backbone in a frame-wise manner. Pre-training is performed via reconstructing the masked triplet unit from the corrupted input sequence, which learns the hierarchical correlation context cues among internal and external triplet units. Notably, different from the highly semantic word token in BERT, the pose unit is a low-level signal originally located in continuous space, which prevents the direct adoption of the BERT cross-entropy objective. To this end, we bridge this semantic gap via coupling tokenization of the triplet unit. It adaptively extracts the discrete pseudo label from the pose triplet unit, which represents the semantic gesture/body state. After pre-training, we fine-tune the pre-trained encoder on the downstream SLR task, jointly with the newly added task-specific layer. Extensive experiments are conducted to validate the effectiveness of our proposed method, achieving new state-of-the-art performance on all four benchmarks with a notable gain.
arxiv情報
著者 | Weichao Zhao,Hezhen Hu,Wengang Zhou,Jiaxin Shi,Houqiang Li |
発行日 | 2023-02-13 13:49:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google