要約
手話言語制作 (SLP) は、利用可能なリソースが限られており、手話データに固有の多様性があることを考慮すると、困難な作業です。
その結果、以前の作品は平均値への回帰の問題に悩まされ、表現が不十分で理解できない署名につながっていました。
この論文では、表現力豊かな手話シーケンスを作成するために辞書の例を使用することを提案します。
ただし、単に記号を連結すると、ロボット的で不自然なシーケンスが作成されてしまいます。
そこで、サインを効果的につなぎ合わせるための 7 ステップのアプローチを紹介します。
まず、各記号を標準的なポーズに正規化し、トリミングしてステッチすることで、連続シーケンスを作成します。
次に、周波数領域でフィルタリングを適用し、各記号をリサンプリングすることで、元のデータにある韻律を模倣する、まとまりのある自然なシーケンスを作成します。
SignGAN モデルを活用して出力を写真のようにリアルな署名者にマッピングし、完全な Text-to-Sign (T2S) SLP パイプラインを提供します。
私たちの評価では、このアプローチの有効性が実証され、すべてのデータセットにわたる最先端のパフォーマンスが示されています。
要約(オリジナル)
Sign Language Production (SLP) is a challenging task, given the limited resources available and the inherent diversity within sign data. As a result, previous works have suffered from the problem of regression to the mean, leading to under-articulated and incomprehensible signing. In this paper, we propose using dictionary examples to create expressive sign language sequences. However, simply concatenating the signs would create robotic and unnatural sequences. Therefore, we present a 7-step approach to effectively stitch the signs together. First, by normalising each sign into a canonical pose, cropping and stitching we create a continuous sequence. Then by applying filtering in the frequency domain and resampling each sign we create cohesive natural sequences, that mimic the prosody found in the original data. We leverage the SignGAN model to map the output to a photo-realistic signer and present a complete Text-to-Sign (T2S) SLP pipeline. Our evaluation demonstrates the effectiveness of this approach, showcasing state-of-the-art performance across all datasets.
arxiv情報
著者 | Harry Walsh,Ben Saunders,Richard Bowden |
発行日 | 2024-10-14 16:28:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google