DiffSLVA: Harnessing Diffusion Models for Sign Language Video Anonymization

要約

アメリカ手話 (ASL) には標準的な書面がないため、ろう手話者は母国語でコミュニケーションをとるためにビデオを頻繁に共有します。
しかし、手話では手と顔の両方が重要な言語情報を伝えるため、手話ビデオでは署名者のプライバシーを保護できません。
手話者は、言語コンテンツを効果的に保存する手話ビデオの匿名化にさまざまな用途で関心を示しているが、手の動きや顔の表情の複雑さを考慮すると、そのような技術を開発する試みはあまり成功していない。
既存のアプローチは主にビデオ映像内の手話者の正確な姿勢推定に依存しており、多くの場合トレーニング用に手話ビデオ データセットが必要です。
これらの要件により、現在の手話ビデオ データセットの多様性が限られていることもあり、ビデオを「実際に」処理することはできません。
これらの制限に対処するために、私たちの研究では、ゼロショットのテキストガイドによる手話ビデオ匿名化のための事前トレーニング済みの大規模拡散モデルを利用する新しい方法論である DiffSLVA を導入しています。
HED (Holistic-Nested Edge Detection) エッジなどの低レベルの画像機能を利用して、姿勢推定の必要性を回避する ControlNet を組み込みます。
さらに、手話で重要な言語情報を伝えるために重要な表情のキャプチャに特化した特殊なモジュールも開発しています。
次に、上記の方法を組み合わせて、元の署名者の重要な言語内容をより適切に保存する匿名化を実現します。
この革新的な方法論により、現実世界のアプリケーションに使用できる手話ビデオの匿名化が初めて可能になり、聴覚障害者コミュニティに大きな利益をもたらすことになります。
一連の署名者の匿名化実験により、私たちのアプローチの有効性を実証します。

要約(オリジナル)

Since American Sign Language (ASL) has no standard written form, Deaf signers frequently share videos in order to communicate in their native language. However, since both hands and face convey critical linguistic information in signed languages, sign language videos cannot preserve signer privacy. While signers have expressed interest, for a variety of applications, in sign language video anonymization that would effectively preserve linguistic content, attempts to develop such technology have had limited success, given the complexity of hand movements and facial expressions. Existing approaches rely predominantly on precise pose estimations of the signer in video footage and often require sign language video datasets for training. These requirements prevent them from processing videos ‘in the wild,’ in part because of the limited diversity present in current sign language video datasets. To address these limitations, our research introduces DiffSLVA, a novel methodology that utilizes pre-trained large-scale diffusion models for zero-shot text-guided sign language video anonymization. We incorporate ControlNet, which leverages low-level image features such as HED (Holistically-Nested Edge Detection) edges, to circumvent the need for pose estimation. Additionally, we develop a specialized module dedicated to capturing facial expressions, which are critical for conveying essential linguistic information in signed languages. We then combine the above methods to achieve anonymization that better preserves the essential linguistic content of the original signer. This innovative methodology makes possible, for the first time, sign language video anonymization that could be used for real-world applications, which would offer significant benefits to the Deaf and Hard-of-Hearing communities. We demonstrate the effectiveness of our approach with a series of signer anonymization experiments.

arxiv情報

著者 Zhaoyang Xia,Carol Neidle,Dimitris N. Metaxas
発行日 2023-11-27 18:26:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク