要約
このペーパーでは、トランスベースのモーション生成を透明でユーザーエディュなJSON中級レイヤーと統合する、人間中心のリアルタイム、ユーザー適応スピーチと署名言語アニメーションシステムを紹介します。
このフレームワークは、ユーザーの直接検査と標識セグメントの変更を可能にすることにより、以前の手話テクノロジーの重要な制限を克服し、したがって、自然性、表現力、およびユーザー機関を高めます。
ストリーミングコンフォーマーエンコーダーとオートレーフレフなトランスMDNデコーダーを活用して、システムは音声入力を上半身に同期し、3Dアバターレンダリングの顔の動きを同期させます。
編集とユーザーの評価は、継続的な改善のために、人間のループ最適化ループに供給されます。
20人の聴覚障害者署名者と5人の通訳者を使用した実験は、編集可能なインターフェースと参加型フィードバックが、認知負荷を下げながら、理解、自然性、使いやすさ、信頼を大幅に改善することを示しています。
標準のハードウェアに20ミリ秒のフレームごとの推論を使用すると、システムはリアルタイムのコミュニケーションと教育の準備が整いました。
この作業は、技術的および参加型の革新が、手話テクノロジーのためのアクセス可能で説明可能な、ユーザー適応性のあるAIをどのように可能にするかを示しています。
要約(オリジナル)
This paper presents a human-centered, real-time, user-adaptive speech-to-sign language animation system that integrates Transformer-based motion generation with a transparent, user-editable JSON intermediate layer. The framework overcomes key limitations in prior sign language technologies by enabling direct user inspection and modification of sign segments, thus enhancing naturalness, expressiveness, and user agency. Leveraging a streaming Conformer encoder and autoregressive Transformer-MDN decoder, the system synchronizes spoken input into upper-body and facial motion for 3D avatar rendering. Edits and user ratings feed into a human-in-the-loop optimization loop for continuous improvement. Experiments with 20 deaf signers and 5 interpreters show that the editable interface and participatory feedback significantly improve comprehension, naturalness, usability, and trust, while lowering cognitive load. With sub-20 ms per-frame inference on standard hardware, the system is ready for real-time communication and education. This work illustrates how technical and participatory innovation together enable accessible, explainable, and user-adaptive AI for sign language technology.
arxiv情報
著者 | Yingchao Li |
発行日 | 2025-06-17 16:08:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google