Sign Stitching: A Novel Approach to Sign Language Production

要約

手話言語制作 (SLP) は、利用可能なリソースが限られており、手話データに固有の多様性があることを考慮すると、困難な作業です。
その結果、以前の作品は平均値への回帰の問題に悩まされ、表現が不十分で理解できない署名につながっていました。
この論文では、辞書の例と学習された顔の表情のコードブックを使用して、表現力豊かな手話シーケンスを作成することを提案します。
ただし、単に記号を連結して顔を追加すると、ロボット的で不自然なシーケンスが作成されます。
これに対処するために、シーケンスを効果的につなぎ合わせるための 7 ステップのアプローチを紹介します。
まず、各記号を標準的なポーズに正規化し、トリミングし、ステッチすることで、連続シーケンスを作成します。
次に、周波数領域でフィルタリングを適用し、各記号をリサンプリングすることで、元のデータにある韻律を模倣する、一貫した自然なシーケンスを作成します。
SignGAN モデルを活用して出力を写真のようにリアルな署名者にマッピングし、完全な Text-to-Sign (T2S) SLP パイプラインを提供します。
私たちの評価では、すべてのデータセットにわたる最先端のパフォーマンスを示し、アプローチの有効性が実証されています。
最後に、ユーザー評価では、私たちのアプローチがベースライン モデルを上回っており、現実的な手話シーケンスを生成できることが示されています。

要約(オリジナル)

Sign Language Production (SLP) is a challenging task, given the limited resources available and the inherent diversity within sign data. As a result, previous works have suffered from the problem of regression to the mean, leading to under-articulated and incomprehensible signing. In this paper, we propose using dictionary examples and a learnt codebook of facial expressions to create expressive sign language sequences. However, simply concatenating signs and adding the face creates robotic and unnatural sequences. To address this we present a 7-step approach to effectively stitch sequences together. First, by normalizing each sign into a canonical pose, cropping, and stitching we create a continuous sequence. Then, by applying filtering in the frequency domain and resampling each sign, we create cohesive natural sequences that mimic the prosody found in the original data. We leverage a SignGAN model to map the output to a photo-realistic signer and present a complete Text-to-Sign (T2S) SLP pipeline. Our evaluation demonstrates the effectiveness of the approach, showcasing state-of-the-art performance across all datasets. Finally, a user evaluation shows our approach outperforms the baseline model and is capable of producing realistic sign language sequences.

arxiv情報

著者 Harry Walsh,Ben Saunders,Richard Bowden
発行日 2024-05-13 11:44:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク