要約
タイトル:指示動画からの手話翻訳
要約:
– 自動手話翻訳の進化は、限られたサイズと制限されたドメインのデータセットをベンチマークとして主に行われてきた。
– 本研究により、大規模で幅広いHow2Signデータセットに対して初めてベースラインの結果を提供して、最先端技術を推進する。
– I3Dビデオフィーチャーを使ったTransformerのトレーニングを行い、広く使用されているBLEUスコアの代わりに縮小BLEUを検証の基準に使用した。
– BLEUスコアに基づく8.03の結果を報告し、この種の初のオープンソース実装を公開してより一層の進展を促進する。
要約(オリジナル)
The advances in automatic sign language translation (SLT) to spoken languages have been mostly benchmarked with datasets of limited size and restricted domains. Our work advances the state of the art by providing the first baseline results on How2Sign, a large and broad dataset. We train a Transformer over I3D video features, using the reduced BLEU as a reference metric for validation, instead of the widely used BLEU score. We report a result of 8.03 on the BLEU score, and publish the first open-source implementation of its kind to promote further advances.
arxiv情報
著者 | Laia Tarrés,Gerard I. Gállego,Amanda Duarte,Jordi Torres,Xavier Giró-i-Nieto |
発行日 | 2023-04-14 08:43:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI