Speech Editing — a Summary

要約

ビデオ制作とソーシャル メディアの台頭により、クリエイターが音声録音における発音の間違い、単語の欠落、吃音などの問題に対処するために、音声編集が重要になってきています。
この論文では、手動で波形を編集することなく、テキスト トランスクリプトを介してオーディオを変更する、テキスト ベースの音声編集方法を検討します。
これらのアプローチでは、メル スペクトログラムを変更することで、編集されたオーディオをオリジナルと区別できなくなります。
コンテキストを認識した韻律修正や高度なアテンション メカニズムなどの最近の進歩により、音声編集の品質が向上しました。
このペーパーでは、最先端の手法をレビューし、主要な指標を比較し、広く使用されているデータセットを調査します。
その目的は、進行中の問題に焦点を当て、音声編集におけるさらなる研究と革新を促すことです。

要約(オリジナル)

With the rise of video production and social media, speech editing has become crucial for creators to address issues like mispronunciations, missing words, or stuttering in audio recordings. This paper explores text-based speech editing methods that modify audio via text transcripts without manual waveform editing. These approaches ensure edited audio is indistinguishable from the original by altering the mel-spectrogram. Recent advancements, such as context-aware prosody correction and advanced attention mechanisms, have improved speech editing quality. This paper reviews state-of-the-art methods, compares key metrics, and examines widely used datasets. The aim is to highlight ongoing issues and inspire further research and innovation in speech editing.

arxiv情報

著者 Tobias Kässmann,Yining Liu,Danni Liu
発行日 2024-07-24 11:22:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク