eess.AS」カテゴリーアーカイブ

Moonshine: Speech Recognition for Live Transcription and Voice Commands

要約 このペーパーでは、ライブ文字起こしと音声コマンド処理用に最適化された音声認 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Moonshine: Speech Recognition for Live Transcription and Voice Commands はコメントを受け付けていません

Continuous Speech Tokenizer in Text To Speech

要約 大規模な言語モデルの時代における音声と言語の融合は、大きな注目を集めていま … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Continuous Speech Tokenizer in Text To Speech はコメントを受け付けていません

Audio-to-Score Conversion Model Based on Whisper methodology

要約 この論文では、音楽オーディオからメロディーとコードを抽出し、ABC 記譜法 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Audio-to-Score Conversion Model Based on Whisper methodology はコメントを受け付けていません

Can a Machine Distinguish High and Low Amount of Social Creak in Speech?

要約 目的: 特に女性の話者の間で社交的きしみの有病率が増加していることが、いく … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | Can a Machine Distinguish High and Low Amount of Social Creak in Speech? はコメントを受け付けていません

VoiceBench: Benchmarking LLM-Based Voice Assistants

要約 大規模言語モデル (LLM) の成功に基づいて、GPT-4o などの最近の … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | VoiceBench: Benchmarking LLM-Based Voice Assistants はコメントを受け付けていません

Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning

要約 大規模音声言語モデル (LALM) の最近の進歩により、音声および音声情報 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning はコメントを受け付けていません

The First VoicePrivacy Attacker Challenge Evaluation Plan

要約 First VoicePrivacy Attacker Challenge … 続きを読む

カテゴリー: cs.CL, cs.CR, eess.AS | The First VoicePrivacy Attacker Challenge Evaluation Plan はコメントを受け付けていません

Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts)

要約 Explainable AI for the Arts (XAIxArts … 続きを読む

カテゴリー: cs.AI, cs.HC, cs.MM, cs.SD, eess.AS | Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts) はコメントを受け付けていません

Advocating Character Error Rate for Multilingual ASR Evaluation

要約 自動音声認識 (ASR) システムは従来、英語のデータセットを使用して評価 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Advocating Character Error Rate for Multilingual ASR Evaluation はコメントを受け付けていません

Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition

要約 Visual Speech Recognition (VSR) は、唇の動 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.SD, eess.AS, eess.IV | Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition はコメントを受け付けていません