要約
教師なしニューラル機械翻訳 (UNMT) の成功を動機として、並列手話データを使用せずに豊富な単一モダリティ (テキストとビデオ) データから学習する教師なし手話翻訳および生成ネットワーク (USLNet) を紹介します。
USLNet は 2 つの主要コンポーネントで構成されます。1 つは同じモダリティでノイズの多いバージョンから入力を再構築する単一モダリティ再構成モジュール (テキストとビデオ)、もう 1 つはクロスモダリティ逆変換モジュール (テキスト-ビデオ-テキストおよびビデオ-テキスト-ビデオ) です。
バックトランスレーション手順を使用して、異なるモダリティのノイズの多いバージョンから入力を再構築します。テキストベースの UNMT の単一モダリティ逆トランスレーション手順とは異なり、USLNet は、長さとフィーチャという特徴表現におけるクロスモダリティの不一致に直面しています。
テキストとビデオシーケンス間の寸法の不一致。
可変長テキストをビデオシーケンスと位置合わせする問題に対処するために、スライディングウィンドウ法を提案します。
私たちの知る限り、USLNet は、自然言語テキストと手話ビデオの両方を統一した方法で生成できる初の教師なし手話翻訳および生成モデルです。
BBC オックスフォード手話データセット (BOBSL) とオープンドメイン アメリカ手話データセット (OpenASL) の実験結果から、USLNet が教師ありベースライン モデルと比較して競争力のある結果を達成していることが明らかになり、手話の翻訳と生成におけるその有効性が示されています。
要約(オリジナル)
Motivated by the success of unsupervised neural machine translation (UNMT), we introduce an unsupervised sign language translation and generation network (USLNet), which learns from abundant single-modality (text and video) data without parallel sign language data. USLNet comprises two main components: single-modality reconstruction modules (text and video) that rebuild the input from its noisy version in the same modality and cross-modality back-translation modules (text-video-text and video-text-video) that reconstruct the input from its noisy version in the different modality using back-translation procedure.Unlike the single-modality back-translation procedure in text-based UNMT, USLNet faces the cross-modality discrepancy in feature representation, in which the length and the feature dimension mismatch between text and video sequences. We propose a sliding window method to address the issues of aligning variable-length text with video sequences. To our knowledge, USLNet is the first unsupervised sign language translation and generation model capable of generating both natural language text and sign language video in a unified manner. Experimental results on the BBC-Oxford Sign Language dataset (BOBSL) and Open-Domain American Sign Language dataset (OpenASL) reveal that USLNet achieves competitive results compared to supervised baseline models, indicating its effectiveness in sign language translation and generation.
arxiv情報
著者 | Zhengsheng Guo,Zhiwei He,Wenxiang Jiao,Xing Wang,Rui Wang,Kehai Chen,Zhaopeng Tu,Yong Xu,Min Zhang |
発行日 | 2024-02-12 15:39:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google