要約
【タイトル】
SLTUNET:手話翻訳向け統合モデル
【要約】
・手話翻訳のデータの希少性と、手話映像とテキストとのモダリティの差異のため、翻訳の品質が音声言語よりも劣る。
・この問題に対処するため、SLTの複数のタスクをサポートするために、クロスモダリティ表現共有の戦略を調査する。
・その結果、SLTUNETというシンプルで統合的なニューラルモデルを提案する。このモデルは、手話から語彙、語彙からテキスト、手話からテキストへの翻訳など、複数のSLT関連タスクをジョイントでモデル化できる。
・複数のタスクを共同モデリングすることで、SLTUNETは横断的関連性を探索でき、モダリティギャップを狭めるのに役立つ。
・さらに、これにより、音声言語機械翻訳に使用される豊富な並列データなど、外部リソースからの知識を活用できる。
・実験では、MTデータを拡張し、最適化技術セットを装備したSLTUNETがPHOENIX-2014TおよびCSL-Dailyで競合力のある性能を発揮することを示した。
・DGS Corpusを用いて最初のエンドツーエンドSLTを行い、これにより、より大きな語彙をカバーする広範な領域で検証した。SLTUNETは、DGS Corpusでも改善された結果を得た。
・コードはhttps://github.com/bzhangGo/sltunetで入手可能。
要約(オリジナル)
Despite recent successes with neural models for sign language translation (SLT), translation quality still lags behind spoken languages because of the data scarcity and modality gap between sign video and text. To address both problems, we investigate strategies for cross-modality representation sharing for SLT. We propose SLTUNET, a simple unified neural model designed to support multiple SLTrelated tasks jointly, such as sign-to-gloss, gloss-to-text and sign-to-text translation. Jointly modeling different tasks endows SLTUNET with the capability to explore the cross-task relatedness that could help narrow the modality gap. In addition, this allows us to leverage the knowledge from external resources, such as abundant parallel data used for spoken-language machine translation (MT). We show in experiments that SLTUNET achieves competitive and even state-of-the-art performance on PHOENIX-2014T and CSL-Daily when augmented with MT data and equipped with a set of optimization techniques. We further use the DGS Corpus for end-to-end SLT for the first time. It covers broader domains with a significantly larger vocabulary, which is more challenging and which we consider to allow for a more realistic assessment of the current state of SLT than the former two. Still, SLTUNET obtains improved results on the DGS Corpus. Code is available at https://github.com/bzhangGo/sltunet.
arxiv情報
著者 | Biao Zhang,Mathias Müller,Rico Sennrich |
発行日 | 2023-05-02 20:41:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI