Gloss Attention for Gloss-free Sign Language Translation

要約

現在までの手話翻訳 (SLT) 方法のほとんどは、追加の監督情報を提供するために光沢注釈の使用を必要としますが、光沢を取得するのは簡単ではありません。
この問題を解決するために、まず既存のモデルの分析を実行して、光沢アノテーションによって SLT がどのように容易になるかを確認します。
これはモデルに 2 つの側面の情報を提供できることがわかりました。1) モデルが連続手話ビデオの意味境界の位置を暗黙的に学習するのに役立ちます。2) モデルが手話ビデオをグローバルに理解するのに役立ちます。
次に、光沢が既存のモデルに役立つのと同じように、ローカルで同じセマンティクスを持つビデオ セグメント内でモデルの注意を維持できるようにする \emph{光沢注意} を提案します。
さらに、文間の類似性に関する知識を自然言語モデルから光沢アテンション SLT ネットワーク (GASLT) に転送し、手話ビデオを文レベルで理解できるようにします。
複数の大規模手話データセットに関する実験結果は、私たちが提案した GASLT モデルが既存の手法よりも大幅に優れていることを示しています。
私たちのコードは \url{https://github.com/yingAoXiong/GASLT} で提供されています。

要約(オリジナル)

Most sign language translation (SLT) methods to date require the use of gloss annotations to provide additional supervision information, however, the acquisition of gloss is not easy. To solve this problem, we first perform an analysis of existing models to confirm how gloss annotations make SLT easier. We find that it can provide two aspects of information for the model, 1) it can help the model implicitly learn the location of semantic boundaries in continuous sign language videos, 2) it can help the model understand the sign language video globally. We then propose \emph{gloss attention}, which enables the model to keep its attention within video segments that have the same semantics locally, just as gloss helps existing models do. Furthermore, we transfer the knowledge of sentence-to-sentence similarity from the natural language model to our gloss attention SLT network (GASLT) to help it understand sign language videos at the sentence level. Experimental results on multiple large-scale sign language datasets show that our proposed GASLT model significantly outperforms existing methods. Our code is provided in \url{https://github.com/YinAoXiong/GASLT}.

arxiv情報

著者 Aoxiong Yin,Tianyun Zhong,Li Tang,Weike Jin,Tao Jin,Zhou Zhao
発行日 2023-07-14 14:07:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク