Gloss Alignment Using Word Embeddings

要約

手話データセットのキャプチャと注釈付けは、時間とコストがかかるプロセスです。
現在のデータセットは、制約のない \acf{slt} モデルを正常にトレーニングするには桁違いに小さすぎます。
その結果、研究は、手話通訳とそれに関連する音声字幕の両方から構成される大規模なトレーニング データのソースとして TV 放送コンテンツに注目するようになりました。
しかし、手話の注釈がないため、このデータの利用可能性が制限されており、サインスポッティングなどの自動注釈技術の開発につながりました。
これらの斑点は字幕ではなくビデオに合わせて配置されるため、多くの場合、字幕と斑点の標識の間にずれが生じます。
この論文では、大規模な音声言語モデルを使用して、スポッティングを対応する字幕と位置合わせする方法を提案します。
単一のモダリティを使用するということは、私たちの方法が計算コストが低く、既存の位置合わせ技術と組み合わせて利用できることを意味します。
\acf{mdgs} および \acf{bobsl} データセットに対する手法の有効性を定量的に実証し、単語アライメントで最大 33.22 BLEU-1 スコアを回復しました。

要約(オリジナル)

Capturing and annotating Sign language datasets is a time consuming and costly process. Current datasets are orders of magnitude too small to successfully train unconstrained \acf{slt} models. As a result, research has turned to TV broadcast content as a source of large-scale training data, consisting of both the sign language interpreter and the associated audio subtitle. However, lack of sign language annotation limits the usability of this data and has led to the development of automatic annotation techniques such as sign spotting. These spottings are aligned to the video rather than the subtitle, which often results in a misalignment between the subtitle and spotted signs. In this paper we propose a method for aligning spottings with their corresponding subtitles using large spoken language models. Using a single modality means our method is computationally inexpensive and can be utilized in conjunction with existing alignment techniques. We quantitatively demonstrate the effectiveness of our method on the \acf{mdgs} and \acf{bobsl} datasets, recovering up to a 33.22 BLEU-1 score in word alignment.

arxiv情報

著者 Harry Walsh,Ozge Mercanoglu Sincan,Ben Saunders,Richard Bowden
発行日 2023-08-08 13:26:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク