eess.AS」カテゴリーアーカイブ

Non-native Children’s Automatic Speech Assessment Challenge (NOCASA)

要約 このペーパーでは、「非ネイティブチルドレンの自動音声評価」(NOCASA) … 続きを読む

カテゴリー: cs.CL, eess.AS | Non-native Children’s Automatic Speech Assessment Challenge (NOCASA) はコメントを受け付けていません

Mitigating Timbre Leakage with Universal Semantic Mapping Residual Block for Voice Conversion

要約 音声変換(VC)は、コンテンツを保存することにより、ソース音声をターゲット … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Mitigating Timbre Leakage with Universal Semantic Mapping Residual Block for Voice Conversion はコメントを受け付けていません

End-to-end Audio Deepfake Detection from RAW Waveforms: a RawNet-Based Approach with Cross-Dataset Evaluation

要約 オーディオディープフェイクは、デジタルセキュリティと信頼に対する脅威の高ま … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | End-to-end Audio Deepfake Detection from RAW Waveforms: a RawNet-Based Approach with Cross-Dataset Evaluation はコメントを受け付けていません

Tracking Articulatory Dynamics in Speech with a Fixed-Weight BiLSTM-CNN Architecture

要約 音声生成は、さまざまな調音の特徴の調整を含む複雑な連続プロセスです。 その … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Tracking Articulatory Dynamics in Speech with a Fixed-Weight BiLSTM-CNN Architecture はコメントを受け付けていません

Combining X-Vectors and Bayesian Batch Active Learning: Two-Stage Active Learning Pipeline for Speech Recognition

要約 このペーパーでは、監視なしで監視されたAL方法を組み合わせた、自動音声認識 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, eess.AS | Combining X-Vectors and Bayesian Batch Active Learning: Two-Stage Active Learning Pipeline for Speech Recognition はコメントを受け付けていません

Spatial Audio Processing with Large Language Model on Wearable Devices

要約 空間的コンテキストを大規模な言語モデル(LLM)に統合することは、特にウェ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Spatial Audio Processing with Large Language Model on Wearable Devices はコメントを受け付けていません

Kimi-Audio Technical Report

要約 オーディオの理解、生成、会話に優れたオープンソースオーディオファンデーショ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | Kimi-Audio Technical Report はコメントを受け付けていません

Seeing Soundscapes: Audio-Visual Generation and Separation from Soundscapes Using Audio-Visual Separator

要約 最近の視聴覚生成モデルは、オーディオから画像を生成する際に大きな進歩を遂げ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | Seeing Soundscapes: Audio-Visual Generation and Separation from Soundscapes Using Audio-Visual Separator はコメントを受け付けていません

AudioX: Diffusion Transformer for Anything-to-Audio Generation

要約 オーディオと音楽の生成は、多くのアプリケーションで重要なタスクとして浮上し … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | AudioX: Diffusion Transformer for Anything-to-Audio Generation はコメントを受け付けていません

VocalNet: Speech LLM with Multi-Token Prediction for Faster and High-Quality Generation

要約 音声大規模な言語モデル(LLM)は、音声処理における顕著な研究の焦点として … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | VocalNet: Speech LLM with Multi-Token Prediction for Faster and High-Quality Generation はコメントを受け付けていません