Autoregressive Sign Language Production: A Gloss-Free Approach with Discrete Representations

要約

光沢なし手話制作 (SLP) は、光沢のある仲介者の必要性を回避し、話し言葉の文章を手話に直接翻訳します。
この論文では、ベクトル量子化を利用して手話シーケンスから離散表現を導出する、SLP への新しいアプローチである手話ベクトル量子化ネットワークについて説明します。
私たちの方法は、署名の手動要素と非手動要素の両方に根ざしており、高度な解読方法をサポートし、言語の一貫性を高めるために潜在レベルのアライメントを統合します。
包括的な評価を通じて、従来の SLP 手法よりも優れた手法のパフォーマンスを実証し、評価指標としての逆変換とフレシェ ジェスチャ距離の信頼性を強調しました。

要約(オリジナル)

Gloss-free Sign Language Production (SLP) offers a direct translation of spoken language sentences into sign language, bypassing the need for gloss intermediaries. This paper presents the Sign language Vector Quantization Network, a novel approach to SLP that leverages Vector Quantization to derive discrete representations from sign pose sequences. Our method, rooted in both manual and non-manual elements of signing, supports advanced decoding methods and integrates latent-level alignment for enhanced linguistic coherence. Through comprehensive evaluations, we demonstrate superior performance of our method over prior SLP methods and highlight the reliability of Back-Translation and Fr\’echet Gesture Distance as evaluation metrics.

arxiv情報

著者 Eui Jun Hwang,Huije Lee,Jong C. Park
発行日 2023-09-21 15:46:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク