Using an LLM to Turn Sign Spottings into Spoken Language Sentences

要約

手話翻訳 (SLT) は、手話ビデオから音声言語の文章を生成することを目的とした、やりがいのあるタスクです。
このペーパーでは、SLT のパフォーマンスを向上させるためにサイン スポッターと事前トレーニングされた大規模言語モデルを利用する、ハイブリッド SLT アプローチであるスポッター + GPT を紹介します。
私たちの方法は、両方のコンポーネントの長所に基づいて構築されています。
ビデオはまず、言語手話データセットでトレーニングされたスポッターによって処理され、個々の手話を識別します。
これらの斑点のある標識は強力な言語モデルに渡され、一貫性のある文脈上適切な音声言語の文に変換されます。

要約(オリジナル)

Sign Language Translation (SLT) is a challenging task that aims to generate spoken language sentences from sign language videos. In this paper, we introduce a hybrid SLT approach, Spotter+GPT, that utilizes a sign spotter and a pretrained large language model to improve SLT performance. Our method builds upon the strengths of both components. The videos are first processed by the spotter, which is trained on a linguistic sign language dataset, to identify individual signs. These spotted signs are then passed to the powerful language model, which transforms them into coherent and contextually appropriate spoken language sentences.

arxiv情報

著者 Ozge Mercanoglu Sincan,Necati Cihan Camgoz,Richard Bowden
発行日 2024-03-15 16:14:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク