「cs.SD」カテゴリーアーカイブ

Moonshine: Speech Recognition for Live Transcription and Voice Commands

投稿日: 2024年10月23日作成者: jarxiv

要約このペーパーでは、ライブ文字起こしと音声コマンド処理用に最適化された音声認 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Continuous Speech Tokenizer in Text To Speech

投稿日: 2024年10月23日作成者: jarxiv

要約大規模な言語モデルの時代における音声と言語の融合は、大きな注目を集めていま … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Audio-to-Score Conversion Model Based on Whisper methodology

投稿日: 2024年10月23日作成者: jarxiv

要約この論文では、音楽オーディオからメロディーとコードを抽出し、ABC 記譜法 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Can a Machine Distinguish High and Low Amount of Social Creak in Speech?

投稿日: 2024年10月23日作成者: jarxiv

要約目的: 特に女性の話者の間で社交的きしみの有病率が増加していることが、いく … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

VoiceBench: Benchmarking LLM-Based Voice Assistants

投稿日: 2024年10月23日作成者: jarxiv

要約大規模言語モデル (LLM) の成功に基づいて、GPT-4o などの最近の … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning

投稿日: 2024年10月22日作成者: jarxiv

要約大規模音声言語モデル (LALM) の最近の進歩により、音声および音声情報 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts)

投稿日: 2024年10月22日作成者: jarxiv

要約 Explainable AI for the Arts (XAIxArts … 続きを読む →

カテゴリー: cs.AI, cs.HC, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Advocating Character Error Rate for Multilingual ASR Evaluation

投稿日: 2024年10月21日作成者: jarxiv

要約自動音声認識 (ASR) システムは従来、英語のデータセットを使用して評価 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition

投稿日: 2024年10月21日作成者: jarxiv

要約 Visual Speech Recognition (VSR) は、唇の動 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.SD, eess.AS, eess.IV | コメントを受け付けていません

Music to Dance as Language Translation using Sequence Models

投稿日: 2024年10月18日作成者: jarxiv

要約音楽から適切な振り付けを合成することは未解決の問題のままです。振り付け生 … 続きを読む →

カテゴリー: cs.RO, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

Moonshine: Speech Recognition for Live Transcription and Voice Commands

Continuous Speech Tokenizer in Text To Speech

Audio-to-Score Conversion Model Based on Whisper methodology

Can a Machine Distinguish High and Low Amount of Social Creak in Speech?

VoiceBench: Benchmarking LLM-Based Voice Assistants

Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning

Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts)

Advocating Character Error Rate for Multilingual ASR Evaluation

Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition

Music to Dance as Language Translation using Sequence Models

最近の投稿

最近のコメント

アーカイブ

カテゴリー