要約
この論文では、Prompt2Sign という名前の最初の包括的な多言語手話データセットを紹介します。このデータセットは、アメリカ手話 (ASL) およびその他 7 つを含む公開データから構築されています。
私たちのデータセットは、膨大な数のビデオを合理化されたモデルに適した形式に変換し、seq2seq や text2text などの翻訳モデルを使用したトレーニング用に最適化されています。
この新しいデータセットに基づいて、私たちは初の多言語手話生成 (SLP) モデルである SignLLM を提案します。これには、入力テキストまたはプロンプトから手話ジェスチャーを生成できる 2 つの新しい多言語 SLP モードが含まれています。
どちらのモードでも、新しい損失と強化学習に基づくモジュールを使用できます。これにより、高品質のデータを自律的にサンプリングするモデルの機能が強化され、トレーニングが高速化されます。
SignLLM のベンチマーク結果を紹介します。この結果は、私たちのモデルが 8 つの手話言語にわたる SLP タスクで最先端のパフォーマンスを達成していることを示しています。
要約(オリジナル)
In this paper, we introduce the first comprehensive multilingual sign language dataset named Prompt2Sign, which builds from public data including American Sign Language (ASL) and seven others. Our dataset transforms a vast array of videos into a streamlined, model-friendly format, optimized for training with translation models like seq2seq and text2text. Building on this new dataset, we propose SignLLM, the first multilingual Sign Language Production (SLP) model, which includes two novel multilingual SLP modes that allow for the generation of sign language gestures from input text or prompt. Both of the modes can use a new loss and a module based on reinforcement learning, which accelerates the training by enhancing the model’s capability to autonomously sample high-quality data. We present benchmark results of SignLLM, which demonstrate that our model achieves state-of-the-art performance on SLP tasks across eight sign languages.
arxiv情報
著者 | Sen Fang,Lei Wang,Ce Zheng,Yapeng Tian,Chen Chen |
発行日 | 2024-05-17 12:01:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google