A Simple Baseline for Spoken Language to Sign Language Translation with 3D Avatars

要約

この論文の目的は、Spoken2Sign 翻訳と呼ばれる、話し言葉を手話に翻訳するための機能システムを開発することです。
Spoken2Sign タスクは、従来の手話から音声言語への (Sign2Spoken) 翻訳と直交し、補完的です。
Spoken2Spoken の翻訳を有効にするために、次の 3 つのステップで構成される単純なベースラインを提示します。1) 既存の Sign2Spoken ベンチマークを使用して光沢ビデオ辞書を作成します。
2)辞書内の各サインビデオの3Dサインを推定する。
3) 生成された光沢 3D サイン辞書を利用して、Text2Gloss トランスレータ、サイン コネクタ、レンダリング モジュールで構成される Spoken2Sign モデルをトレーニングします。
翻訳結果はサインアバターを通じて表示されます。
私たちが知る限り、Spoken2Sign タスクを 3D サインの出力形式で提示したのは私たちが初めてです。
Spoken2Sign の翻訳機能に加えて、私たちのアプローチの 2 つの副産物である 3D キーポイント拡張とマルチビュー理解がキーポイントベースの手話理解を支援できることも実証しました。
コードとモデルは https://github.com/FangyunWei/SLRT で入手できます。

要約(オリジナル)

The objective of this paper is to develop a functional system for translating spoken languages into sign languages, referred to as Spoken2Sign translation. The Spoken2Sign task is orthogonal and complementary to traditional sign language to spoken language (Sign2Spoken) translation. To enable Spoken2Sign translation, we present a simple baseline consisting of three steps: 1) creating a gloss-video dictionary using existing Sign2Spoken benchmarks; 2) estimating a 3D sign for each sign video in the dictionary; 3) training a Spoken2Sign model, which is composed of a Text2Gloss translator, a sign connector, and a rendering module, with the aid of the yielded gloss-3D sign dictionary. The translation results are then displayed through a sign avatar. As far as we know, we are the first to present the Spoken2Sign task in an output format of 3D signs. In addition to its capability of Spoken2Sign translation, we also demonstrate that two by-products of our approach-3D keypoint augmentation and multi-view understanding-can assist in keypoint-based sign language understanding. Code and models will be available at https://github.com/FangyunWei/SLRT

arxiv情報

著者 Ronglai Zuo,Fangyun Wei,Zenggui Chen,Brian Mak,Jiaolong Yang,Xin Tong
発行日 2024-01-09 18:59:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク