Sign Language Translation from Instructional Videos


– 自動手話翻訳技術は限られたサイズとドメインのデータセットで大部分のベンチマークが行われてきた。
– 本研究では、大規模で広範囲なデータセットであるHow2signを用いて、Transformerを使った手話翻訳のベースライン結果を提供した。
– BLEUスコアに代わる検証用メトリックとして、減少したBLEUを使用した。
– 本研究は8.03のBLEUスコアを報告し、そのような実装の最初のオープンソースを公表して、さらなる進歩を促進する。


The advances in automatic sign language translation (SLT) to spoken languages have been mostly benchmarked with datasets of limited size and restricted domains. Our work advances the state of the art by providing the first baseline results on How2Sign, a large and broad dataset. We train a Transformer over I3D video features, using the reduced BLEU as a reference metric for validation, instead of the widely used BLEU score. We report a result of 8.03 on the BLEU score, and publish the first open-source implementation of its kind to promote further advances.


著者 Laia Tarrés,Gerard I. Gállego,Amanda Duarte,Jordi Torres,Xavier Giró-i-Nieto
発行日 2023-04-13 09:50:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.CL, cs.CV パーマリンク