要約
手話翻訳 (SLT) は、聴覚障害者と聴覚障害者の間のコミュニケーション ギャップを埋める有望な技術です。
最近、研究者は、SLT を達成するために、通常はトレーニングに大規模なコーパスを必要とするニューラル機械翻訳 (NMT) 手法を採用しています。
ただし、公開されている SLT コーパスは非常に限られているため、トークン表現が崩壊し、生成されたトークンが不正確になります。
この問題を軽減するために、トークンを組み込むことによって効果的なトークン表現を学習する \textbf{S}ign \textbf{L}anguage \textbf{T}ranslation のための新しいトークンレベルの \textbf{Con}trastive 学習フレームワークである ConSLT を提案します。
-SLT デコード プロセスへのレベルの対照的な学習。
具体的には、ConSLT は、デコード中に各トークンと、異なるドロップアウト マスクによって生成された対応するトークンを正のペアとして扱い、現在の文にないボキャブラリ内の $K$ トークンをランダムにサンプリングして、負の例を構築します。
エンドツーエンドおよびカスケード設定の両方について、2 つのベンチマーク (PHOENIX14T および CSL-Daily) で包括的な実験を行います。
実験結果は、ConSLT が強力なベースラインよりも優れた翻訳品質を達成できることを示しています。
要約(オリジナル)
Sign Language Translation (SLT) is a promising technology to bridge the communication gap between the deaf and the hearing people. Recently, researchers have adopted Neural Machine Translation (NMT) methods, which usually require large-scale corpus for training, to achieve SLT. However, the publicly available SLT corpus is very limited, which causes the collapse of the token representations and the inaccuracy of the generated tokens. To alleviate this issue, we propose ConSLT, a novel token-level \textbf{Con}trastive learning framework for \textbf{S}ign \textbf{L}anguage \textbf{T}ranslation , which learns effective token representations by incorporating token-level contrastive learning into the SLT decoding process. Concretely, ConSLT treats each token and its counterpart generated by different dropout masks as positive pairs during decoding, and then randomly samples $K$ tokens in the vocabulary that are not in the current sentence to construct negative examples. We conduct comprehensive experiments on two benchmarks (PHOENIX14T and CSL-Daily) for both end-to-end and cascaded settings. The experimental results demonstrate that ConSLT can achieve better translation quality than the strong baselines.
arxiv情報
著者 | Biao Fu,Peigen Ye,Liang Zhang,Pei Yu,Cong Hu,Yidong Chen,Xiaodong Shi |
発行日 | 2023-03-21 12:58:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google