要約
このペーパーでは、リアルタイム アプリケーションで遅延が発生し、応答性が制限されることが多い音声特徴抽出 (AFE) の課題の克服に焦点を当て、面接官トレーニングのためのリアルタイム トーキングヘッド生成の統合について検討します。
これらの問題に対処するために、当社は従来の AFE モデルを Open AI の Whisper に置き換え、そのエンコーダを活用して処理を最適化し、システム全体の効率を向上させる、完全に統合されたシステムを提案および実装します。
3 つの異なるデータセットにわたる 2 つのオープンソース リアルタイム モデルを評価したところ、Whisper は処理を高速化するだけでなく、レンダリング品質の特定の側面も改善し、その結果、より現実的で応答性の高いトーキングヘッド インタラクションが実現されることがわかりました。
これらの進歩により、このシステムは没入型でインタラクティブなトレーニング アプリケーションにとってより効果的なツールとなり、面接官トレーニングにおける AI 駆動のアバターの可能性が広がります。
要約(オリジナル)
This paper examines the integration of real-time talking-head generation for interviewer training, focusing on overcoming challenges in Audio Feature Extraction (AFE), which often introduces latency and limits responsiveness in real-time applications. To address these issues, we propose and implement a fully integrated system that replaces conventional AFE models with Open AI’s Whisper, leveraging its encoder to optimize processing and improve overall system efficiency. Our evaluation of two open-source real-time models across three different datasets shows that Whisper not only accelerates processing but also improves specific aspects of rendering quality, resulting in more realistic and responsive talking-head interactions. These advancements make the system a more effective tool for immersive, interactive training applications, expanding the potential of AI-driven avatars in interviewer training.
arxiv情報
著者 | Pegah Salehi,Sajad Amouei Sheshkal,Vajira Thambawita,Sushant Gautam,Saeed S. Sabet,Dag Johansen,Michael A. Riegler,Pål Halvorsen |
発行日 | 2024-11-20 11:18:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google