cs.SD」カテゴリーアーカイブ

SQuId: Measuring Speech Naturalness in Many Languages

要約 テキスト読み上げの研究の多くは人間による評価に依存しているため、多大なコス … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | SQuId: Measuring Speech Naturalness in Many Languages はコメントを受け付けていません

Adaptive Contextual Biasing for Transducer Based Streaming Speech Recognition

要約 追加のコンテキスト情報を組み込むことにより、ディープ バイアス手法が、パー … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Adaptive Contextual Biasing for Transducer Based Streaming Speech Recognition はコメントを受け付けていません

UnDiff: Unsupervised Voice Restoration with Unconditional Diffusion Model

要約 この論文では、さまざまな音声逆タスクを解決できる拡散確率モデル UnDif … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | UnDiff: Unsupervised Voice Restoration with Unconditional Diffusion Model はコメントを受け付けていません

Iterative autoregression: a novel trick to improve your low-latency speech enhancement model

要約 ストリーミング モデルは、リアルタイム音声強調ツールの重要なコンポーネント … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Iterative autoregression: a novel trick to improve your low-latency speech enhancement model はコメントを受け付けていません

VOCALExplore: Pay-as-You-Go Video Data Exploration and Model Building [Technical Report]

要約 ユーザーがビデオ データセットに対してドメイン固有のモデルを構築できるよう … 続きを読む

カテゴリー: cs.CV, cs.DB, cs.SD, eess.AS | VOCALExplore: Pay-as-You-Go Video Data Exploration and Model Building [Technical Report] はコメントを受け付けていません

UNSSOR: Unsupervised Neural Speech Separation by Leveraging Over-determined Training Mixtures

要約 複数のスピーカーが同時に存在する残響状態では、各マイクは異なる場所にある複 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | UNSSOR: Unsupervised Neural Speech Separation by Leveraging Over-determined Training Mixtures はコメントを受け付けていません

Text-to-Speech Pipeline for Swiss German — A comparison

要約 この研究では、さまざまな Text-to-Speech (TTS) モデル … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Text-to-Speech Pipeline for Swiss German — A comparison はコメントを受け付けていません

MT4SSL: Boosting Self-Supervised Speech Representation Learning by Integrating Multiple Targets

要約 この論文では、トレーニングターゲットがどのように取得されるかということから … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | MT4SSL: Boosting Self-Supervised Speech Representation Learning by Integrating Multiple Targets はコメントを受け付けていません

Attention-Based Methods For Audio Question Answering

要約 音声質問応答 (AQA) は、システムに音声および自然言語の質問が提供され … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Attention-Based Methods For Audio Question Answering はコメントを受け付けていません

Leveraging Semantic Information for Efficient Self-Supervised Emotion Recognition with Audio-Textual Distilled Models

要約 主に、暗黙的なセマンティック モデリングにより、自己教師あり学習 (SSL … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Leveraging Semantic Information for Efficient Self-Supervised Emotion Recognition with Audio-Textual Distilled Models はコメントを受け付けていません