要約
この論文では、ビデオベースのギリシャ手話からグロスやテキストへの翻訳に焦点を当てた、Transformer ベースの手話翻訳 (SLT) モデルの包括的な解釈可能性分析を初めて紹介します。
ギリシャ手話データセットを活用して、モデル内の注意メカニズムを調べて、視覚入力がどのように処理され、連続する光沢と調整されるかを理解します。
私たちの分析により、モデルが個々のフレームではなくフレームのクラスターに注意を払っており、ポーズと光沢の間に斜めの位置合わせパターンが現れ、光沢の数が増加するにつれてそのパターンが明確でなくなることが明らかになりました。
また、各デコードステップにおけるクロスアテンションとセルフアテンションの相対的な寄与を調査し、モデルが最初はビデオフレームに依存しているが、翻訳が進むにつれて以前に予測されたトークンに焦点を移すことがわかりました。
この研究は、SLT モデルのより深い理解に貢献し、現実世界のアプリケーションに不可欠な、より透過的で信頼性の高い翻訳システムの開発への道を開きます。
要約(オリジナル)
This paper presents the first comprehensive interpretability analysis of a Transformer-based Sign Language Translation (SLT) model, focusing on the translation from video-based Greek Sign Language to glosses and text. Leveraging the Greek Sign Language Dataset, we examine the attention mechanisms within the model to understand how it processes and aligns visual input with sequential glosses. Our analysis reveals that the model pays attention to clusters of frames rather than individual ones, with a diagonal alignment pattern emerging between poses and glosses, which becomes less distinct as the number of glosses increases. We also explore the relative contributions of cross-attention and self-attention at each decoding step, finding that the model initially relies on video frames but shifts its focus to previously predicted tokens as the translation progresses. This work contributes to a deeper understanding of SLT models, paving the way for the development of more transparent and reliable translation systems essential for real-world applications.
arxiv情報
著者 | Pedro Alejandro Dal Bianco,Oscar Agustín Stanchi,Facundo Manuel Quiroga,Franco Ronchetti,Enzo Ferrante |
発行日 | 2024-10-18 14:38:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google