Gloss2Text: Sign Language Gloss translation using LLMs and Semantically Aware Label Smoothing

要約

ビデオから音声テキストへの手話翻訳には、独特の文法、表現のニュアンス、話者や文脈が異なると視覚的な外観が大きく異なるため、独特の課題が生じます。
ビデオの中間光沢注釈は、翻訳プロセスをガイドすることを目的としています。
私たちの研究では、{\em Gloss2Text} の翻訳段階に焦点を当て、事前トレーニング済みの大規模言語モデル (LLM)、データ拡張、光沢翻訳のあいまいさを利用した新しいラベル平滑化損失関数を活用することで、状態のパフォーマンスを大幅に向上させるいくつかの進歩を提案しています。
最先端のアプローチ。
PHOENIX Weather 2014T データセットに関する広範な実験とアブレーション研究を通じて、私たちのアプローチは {\em Gloss2Text} 翻訳における最先端のパフォーマンスを上回り、手話翻訳への取り組みにおけるその有効性を示し、将来の研究開発への有望な道筋を示唆しています。

要約(オリジナル)

Sign language translation from video to spoken text presents unique challenges owing to the distinct grammar, expression nuances, and high variation of visual appearance across different speakers and contexts. The intermediate gloss annotations of videos aim to guide the translation process. In our work, we focus on {\em Gloss2Text} translation stage and propose several advances by leveraging pre-trained large language models (LLMs), data augmentation, and novel label-smoothing loss function exploiting gloss translation ambiguities improving significantly the performance of state-of-the-art approaches. Through extensive experiments and ablation studies on the PHOENIX Weather 2014T dataset, our approach surpasses state-of-the-art performance in {\em Gloss2Text} translation, indicating its efficacy in addressing sign language translation and suggesting promising avenues for future research and development.

arxiv情報

著者 Pooya Fayyazsanavi,Antonios Anastasopoulos,Jana Košecká
発行日 2024-07-12 14:44:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク