eess.AS」カテゴリーアーカイブ

Applications of Artificial Intelligence for Cross-language Intelligibility Assessment of Dysarthric Speech

要約 目的:音声明瞭度は、ダイサルリアの評価と管理における重要な結果ですが、ほと … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Applications of Artificial Intelligence for Cross-language Intelligibility Assessment of Dysarthric Speech はコメントを受け付けていません

SepALM: Audio Language Models Are Error Correctors for Robust Speech Separation

要約 現代の音声分離技術は、長い混合オーディオ波形を巧みに処理しますが、騒々しい … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | SepALM: Audio Language Models Are Error Correctors for Robust Speech Separation はコメントを受け付けていません

Bemba Speech Translation: Exploring a Low-Resource African Language

要約 本論文では、国際音声言語翻訳会議(IWSLT2025)の低リソース言語トラ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Bemba Speech Translation: Exploring a Low-Resource African Language はコメントを受け付けていません

Automatic Proficiency Assessment in L2 English Learners

要約 英語の第二言語能力(L2)は通常、英語の教師または専門家の評価者によって知 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Automatic Proficiency Assessment in L2 English Learners はコメントを受け付けていません

fastabx: A library for efficient computation of ABX discriminability

要約 ABX差別タスクを構築するための高性能PythonライブラリであるFast … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | fastabx: A library for efficient computation of ABX discriminability はコメントを受け付けていません

LLaMA-Omni2: LLM-based Real-time Spoken Chatbot with Autoregressive Streaming Speech Synthesis

要約 リアルタイムでインテリジェントかつ自然な音声対話は、次世代の人間とコンピュ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | LLaMA-Omni2: LLM-based Real-time Spoken Chatbot with Autoregressive Streaming Speech Synthesis はコメントを受け付けていません

FolAI: Synchronized Foley Sound Generation with Semantic and Temporal Alignment

要約 従来のサウンドデザインワークフローは、フォーリーサウンドデザインのように、 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | FolAI: Synchronized Foley Sound Generation with Semantic and Temporal Alignment はコメントを受け付けていません

How much to Dereverberate? Low-Latency Single-Channel Speech Enhancement in Distant Microphone Scenarios

要約 残響除去は、信号の明瞭度と品質を向上させる音声強調(SE)の重要なサブタス … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS, I.5.1 | How much to Dereverberate? Low-Latency Single-Channel Speech Enhancement in Distant Microphone Scenarios はコメントを受け付けていません

REFFLY: Melody-Constrained Lyrics Editing Model

要約 メロディから歌詞への自動生成(M2L)は、与えられたメロディに沿った歌詞を … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | REFFLY: Melody-Constrained Lyrics Editing Model はコメントを受け付けていません

CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment

要約 オーディオビジュアル学習における最近の進歩は、モダリティを超えた表現の学習 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment はコメントを受け付けていません