要約
音声表現は話し言葉を録音するときに使用されますが、手話の録音に相当するものは存在しません。
その結果、言語学者は光沢またはサブユニットレベルで動作するいくつかの注釈システムを提案しました。
ただし、これらのリソースは著しく不規則で、不足しています。
Sign Language Production (SLP) は、話し言葉の文章を連続した手話シーケンスに自動的に翻訳することを目的としています。
しかし、現在の最先端のアプローチは、機能するために希少な言語リソースに依存しています。
このため、この分野の進歩は限られています。
この論文では、連続ポーズ生成問題を離散シーケンス生成問題に変換することによる革新的なソリューションを紹介します。
したがって、コストのかかる注釈の必要性が克服されます。
ただし、入手可能な場合は、追加情報を活用してアプローチを強化します。
ベクトル量子化 (VQ) を手話データに適用することで、まず、自然な手話シーケンスを作成するために組み合わせることができる短い動きのコードブックを学習します。
コードブック内の各トークンは、表現の語彙集と考えることができます。
次に、トランスフォーマーを使用して、音声言語テキストから一連のコードブック トークンへの翻訳を実行します。
各トークンはポーズのシーケンスに直接マッピングでき、単一のネットワークで変換を実行できます。
さらに、トークンを効果的に結合するためのサインステッチング方法を紹介します。
RWTH-PHOENIX-Weather-2014T (PHOENIX14T) およびより困難な Meine DGS Annotated (mDGS) データセットで評価します。
広範な評価により、私たちのアプローチは以前の方法よりも優れており、BLEU-1 逆翻訳スコアが最大 72% 向上していることが示されています。
要約(オリジナル)
Phonetic representations are used when recording spoken languages, but no equivalent exists for recording signed languages. As a result, linguists have proposed several annotation systems that operate on the gloss or sub-unit level; however, these resources are notably irregular and scarce. Sign Language Production (SLP) aims to automatically translate spoken language sentences into continuous sequences of sign language. However, current state-of-the-art approaches rely on scarce linguistic resources to work. This has limited progress in the field. This paper introduces an innovative solution by transforming the continuous pose generation problem into a discrete sequence generation problem. Thus, overcoming the need for costly annotation. Although, if available, we leverage the additional information to enhance our approach. By applying Vector Quantisation (VQ) to sign language data, we first learn a codebook of short motions that can be combined to create a natural sequence of sign. Where each token in the codebook can be thought of as the lexicon of our representation. Then using a transformer we perform a translation from spoken language text to a sequence of codebook tokens. Each token can be directly mapped to a sequence of poses allowing the translation to be performed by a single network. Furthermore, we present a sign stitching method to effectively join tokens together. We evaluate on the RWTH-PHOENIX-Weather-2014T (PHOENIX14T) and the more challenging Meine DGS Annotated (mDGS) datasets. An extensive evaluation shows our approach outperforms previous methods, increasing the BLEU-1 back translation score by up to 72%.
arxiv情報
著者 | Harry Walsh,Abolfazl Ravanshad,Mariam Rahmani,Richard Bowden |
発行日 | 2024-04-17 15:52:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google