A Simple Baseline for Spoken Language to Sign Language Translation with 3D Avatars

要約

本論文の目的は、Spoken2Sign翻訳と呼ばれる、音声言語を手話言語に翻訳する機能的なシステムを開発することである。Spoken2Signタスクは、従来の手話から音声言語への翻訳(Sign2Spoken)と直交し、補完するものである。Spoken2Sign翻訳を可能にするために、以下の3つのステップからなる簡単なベースラインを紹介する:1) 既存のSign2Spokenベンチマークを使用して、グロス-ビデオ辞書を作成する。2) 辞書内の各手話ビデオに対して3Dサインを推定する。3) 得られたグロス-3Dサイン辞書を使用して、テキスト2グロス・トランスレータ、サイン・コネクタ、レンダリング・モジュールから構成されるSpoken2Signモデルをトレーニングする。翻訳結果は、手話アバターを通して表示される。私たちの知る限り、Spoken2Signタスクを3D手話の出力フォーマットで提示したのは私たちが初めてです。Spoken2Sign翻訳の機能に加えて、我々のアプローチの2つの副産物-3Dキーポイント拡張とマルチビュー理解が、キーポイントベースの手話理解を支援できることも実証している。コードとモデルはhttps://github.com/FangyunWei/SLRT。

要約(オリジナル)

The objective of this paper is to develop a functional system for translating spoken languages into sign languages, referred to as Spoken2Sign translation. The Spoken2Sign task is orthogonal and complementary to traditional sign language to spoken language (Sign2Spoken) translation. To enable Spoken2Sign translation, we present a simple baseline consisting of three steps: 1) creating a gloss-video dictionary using existing Sign2Spoken benchmarks; 2) estimating a 3D sign for each sign video in the dictionary; 3) training a Spoken2Sign model, which is composed of a Text2Gloss translator, a sign connector, and a rendering module, with the aid of the yielded gloss-3D sign dictionary. The translation results are then displayed through a sign avatar. As far as we know, we are the first to present the Spoken2Sign task in an output format of 3D signs. In addition to its capability of Spoken2Sign translation, we also demonstrate that two by-products of our approach-3D keypoint augmentation and multi-view understanding-can assist in keypoint-based sign language understanding. Code and models are available at https://github.com/FangyunWei/SLRT.

arxiv情報

著者 Ronglai Zuo,Fangyun Wei,Zenggui Chen,Brian Mak,Jiaolong Yang,Xin Tong
発行日 2024-07-03 17:04:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク