Attention-Driven Multi-Modal Fusion: Enhancing Sign Language Recognition and Translation

要約

この論文では、継続的な手話認識と翻訳のための既存のパイプラインを使用してマルチモーダル情報を追加するメカニズムを考案します。
私たちの手順では、RGB 画像にオプティカル フロー情報を組み込んで、動き関連の情報で機能を強化しました。
この研究では、クロスモーダル エンコーダーを使用して、そのようなモダリティの包含の実現可能性を研究します。
私たちが使用したプラグインは非常に軽量であり、エンドツーエンドの方法で新しいモダリティ用に別個の特徴抽出プログラムを含める必要はありません。
手話認識と翻訳の両方に変更を適用し、それぞれのケースで結果を改善しました。
手話認識には RWTH-PHOENIX-2014 データセット、翻訳には RWTH-PHOENIX-2014T データセットのパフォーマンスを評価しました。
認識タスクでは、私たちのアプローチにより WER が 0.9 減少し、翻訳タスクでは、テスト セットのほとんどの BLEU スコアが ~0.6 増加しました。

要約(オリジナル)

In this paper, we devise a mechanism for the addition of multi-modal information with an existing pipeline for continuous sign language recognition and translation. In our procedure, we have incorporated optical flow information with RGB images to enrich the features with movement-related information. This work studies the feasibility of such modality inclusion using a cross-modal encoder. The plugin we have used is very lightweight and doesn’t need to include a separate feature extractor for the new modality in an end-to-end manner. We have applied the changes in both sign language recognition and translation, improving the result in each case. We have evaluated the performance on the RWTH-PHOENIX-2014 dataset for sign language recognition and the RWTH-PHOENIX-2014T dataset for translation. On the recognition task, our approach reduced the WER by 0.9, and on the translation task, our approach increased most of the BLEU scores by ~0.6 on the test set.

arxiv情報

著者 Zaber Ibn Abdul Hakim,Rasman Mubtasim Swargo,Muhammad Abdullah Adnan
発行日 2023-09-04 23:31:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク