eess.AS」カテゴリーアーカイブ

Developing Acoustic Models for Automatic Speech Recognition in Swedish

要約 この論文は、訓練可能なシステムを使用した自動連続音声認識に関するものです。 … 続きを読む

カテゴリー: 68T10, cs.AI, cs.SD, eess.AS, I.2.0 | Developing Acoustic Models for Automatic Speech Recognition in Swedish はコメントを受け付けていません

ActiveRIR: Active Audio-Visual Exploration for Acoustic Environment Modeling

要約 環境音響モデルは、特定の音源/受信機の場所において、音が屋内環境の物理的特 … 続きを読む

カテゴリー: cs.CV, cs.RO, cs.SD, eess.AS | ActiveRIR: Active Audio-Visual Exploration for Acoustic Environment Modeling はコメントを受け付けていません

U2++ MoE: Scaling 4.7x parameters with minimal impact on RTF

要約 Scale は自然言語処理の新たな境地を切り開きましたが、それには高いコス … 続きを読む

カテゴリー: cs.CL, eess.AS, I.2.7 | U2++ MoE: Scaling 4.7x parameters with minimal impact on RTF はコメントを受け付けていません

STaR: Distilling Speech Temporal Relation for Lightweight Speech Self-Supervised Learning Models

要約 Transformer ベースの音声自己教師あり学習 (SSL) モデルは … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | STaR: Distilling Speech Temporal Relation for Lightweight Speech Self-Supervised Learning Models はコメントを受け付けていません

Automatic Speech Recognition System-Independent Word Error Rate Estimatio

要約 単語誤り率 (WER) は、自動音声認識 (ASR) システムによって生成 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Automatic Speech Recognition System-Independent Word Error Rate Estimatio はコメントを受け付けていません

Voice Passing : a Non-Binary Voice Gender Prediction System for evaluating Transgender voice transition

要約 この論文では、連続音声女性性パーセント (VFP) を使用して音声を記述す … 続きを読む

カテゴリー: cs.HC, cs.LG, cs.SD, eess.AS | Voice Passing : a Non-Binary Voice Gender Prediction System for evaluating Transgender voice transition はコメントを受け付けていません

NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models

要約 最近の大規模な音声合成 (TTS) モデルは大幅な進歩を遂げていますが、音 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models はコメントを受け付けていません

StoryTTS: A Highly Expressive Text-to-Speech Dataset with Rich Textual Expressiveness Annotations

要約 音響表現力は表現力豊かなテキスト読み上げ (ETTS) において長い間研究 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | StoryTTS: A Highly Expressive Text-to-Speech Dataset with Rich Textual Expressiveness Annotations はコメントを受け付けていません

Deferred NAM: Low-latency Top-K Context Injection via Deferred Context Encoding for Non-Streaming ASR

要約 コンテキスト バイアスにより、音声認識プログラムは、連絡先名などの重要なフ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.NE, eess.AS | Deferred NAM: Low-latency Top-K Context Injection via Deferred Context Encoding for Non-Streaming ASR はコメントを受け付けていません

Robotic Blended Sonification: Consequential Robot Sound as Creative Material for Human-Robot Interaction

要約 ロボット音に関する現在の研究は一般に、ロボットによって生成される結果的な音 … 続きを読む

カテゴリー: cs.HC, cs.RO, cs.SD, eess.AS | Robotic Blended Sonification: Consequential Robot Sound as Creative Material for Human-Robot Interaction はコメントを受け付けていません