Diverse Sign Language Translation

要約

話し言葉と同様に、単一の手話表現は複数の有効なテキスト解釈に対応する可能性があります。
したがって、手話翻訳 (SLT) モデルの厳密な 1 対 1 マッピングの学習は、特にデータが限られている場合には不十分である可能性があります。
この作業では、手話ビデオの多様かつ正確な翻訳を生成することを目的とした、Diverse Sign Language Translation (DivSLT) タスクを導入します。
まず、大規模言語モデル (LLM) を使用して、広く使用されている CSL-Daily および PHOENIX14T SLT データセットの複数の参照を生成します。
ここでは、ネイティブ スピーカーは不正確な参照を修正するだけで済むため、注釈の効率が大幅に向上します。
次に、このタスクの研究を促進するためのベンチマーク モデルを提供します。
具体的には、DivSLT モデルが多様な翻訳を実現できるようにするための複数参照トレーニング戦略を調査します。
次に、翻訳精度を高めるために、翻訳結果の報酬を最大化する最大報酬駆動型の強化学習目標を採用します。
さらに、複数の指標を利用して、DivSLT タスクの精度、多様性、セマンティック精度を評価します。
強化されたデータセットの実験結果は、DivSLT メソッドがより優れた翻訳パフォーマンスだけでなく、多様な翻訳結果も達成できることを示しています。

要約(オリジナル)

Like spoken languages, a single sign language expression could correspond to multiple valid textual interpretations. Hence, learning a rigid one-to-one mapping for sign language translation (SLT) models might be inadequate, particularly in the case of limited data. In this work, we introduce a Diverse Sign Language Translation (DivSLT) task, aiming to generate diverse yet accurate translations for sign language videos. Firstly, we employ large language models (LLM) to generate multiple references for the widely-used CSL-Daily and PHOENIX14T SLT datasets. Here, native speakers are only invited to touch up inaccurate references, thus significantly improving the annotation efficiency. Secondly, we provide a benchmark model to spur research in this task. Specifically, we investigate multi-reference training strategies to enable our DivSLT model to achieve diverse translations. Then, to enhance translation accuracy, we employ the max-reward-driven reinforcement learning objective that maximizes the reward of the translated result. Additionally, we utilize multiple metrics to assess the accuracy, diversity, and semantic precision of the DivSLT task. Experimental results on the enriched datasets demonstrate that our DivSLT method achieves not only better translation performance but also diverse translation results.

arxiv情報

著者 Xin Shen,Lei Shen,Shaozu Yuan,Heming Du,Haiyang Sun,Xin Yu
発行日 2024-10-25 14:28:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク