Comparative Analysis of Audio Feature Extraction for Real-Time Talking Portrait Synthesis

要約

このペーパーでは、リアルタイム アプリケーションで遅延が発生し、応答性が制限されることが多い音声特徴抽出 (AFE) の課題の克服に焦点を当て、面接官トレーニングのためのリアルタイム トーキングヘッド生成の統合について検討します。
これらの問題に対処するために、当社は従来の AFE モデルを Open AI の Whisper に置き換え、そのエンコーダを活用して処理を最適化し、システム全体の効率を向上させる、完全に統合されたシステムを提案および実装します。
3 つの異なるデータセットにわたる 2 つのオープンソース リアルタイム モデルを評価したところ、Whisper は処理を高速化するだけでなく、レンダリング品質の特定の側面も改善し、その結果、より現実的で応答性の高いトーキングヘッド インタラクションが実現されることがわかりました。
これらの進歩により、このシステムは没入型でインタラクティブなトレーニング アプリケーションにとってより効果的なツールとなり、面接官トレーニングにおける AI 駆動のアバターの可能性が広がります。

要約(オリジナル)

This paper examines the integration of real-time talking-head generation for interviewer training, focusing on overcoming challenges in Audio Feature Extraction (AFE), which often introduces latency and limits responsiveness in real-time applications. To address these issues, we propose and implement a fully integrated system that replaces conventional AFE models with Open AI’s Whisper, leveraging its encoder to optimize processing and improve overall system efficiency. Our evaluation of two open-source real-time models across three different datasets shows that Whisper not only accelerates processing but also improves specific aspects of rendering quality, resulting in more realistic and responsive talking-head interactions. These advancements make the system a more effective tool for immersive, interactive training applications, expanding the potential of AI-driven avatars in interviewer training.

arxiv情報

著者 Pegah Salehi,Sajad Amouei Sheshkal,Vajira Thambawita,Sushant Gautam,Saeed S. Sabet,Dag Johansen,Michael A. Riegler,Pål Halvorsen
発行日 2024-11-20 11:18:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T01, 68T07, 68T45, cs.AI, cs.HC, cs.SD, eess.AS パーマリンク