SignBank+: Preparing a Multilingual Sign Language Dataset for Machine Translation Using Large Language Models

要約

SignBank+ は、SignBank データセットのクリーン バージョンであり、音声言語テキストと音声手話記述システムである SignWriting の間の機械翻訳用に最適化されています。
複雑な因数分解技術を使用してテキストと SignWriting の間の翻訳を可能にする以前の研究に加えて、従来のテキストからテキストへの翻訳アプローチが、クリーンな SignBank+ データセットに対して同様に効果的に機能することを示します。
私たちの評価結果は、SignBank+ でトレーニングされたモデルが元のデータセットのモデルを上回り、SignWriting ベースの手話翻訳の新しいベンチマークを確立し、将来の研究のためのオープン リソースを提供することを示しています。

要約(オリジナル)

We introduce SignBank+, a clean version of the SignBank dataset, optimized for machine translation between spoken language text and SignWriting, a phonetic sign language writing system. In addition to previous work that employs complex factorization techniques to enable translation between text and SignWriting, we show that a traditional text-to-text translation approach performs equally effectively on the cleaned SignBank+ dataset. Our evaluation results indicate that models trained on SignBank+ surpass those on the original dataset, establishing a new benchmark for SignWriting-based sign language translation and providing an open resource for future research.

arxiv情報

著者 Amit Moryossef,Zifan Jiang
発行日 2024-03-21 15:31:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク