「cs.SD」カテゴリーアーカイブ

I Know You’re Listening: Adaptive Voice for HRI

投稿日: 2025年6月19日作成者: jarxiv

要約言語教育のためのソーシャルロボットの使用が調査されていますが、言語教育ロボ … 続きを読む →

カテゴリー: cs.HC, cs.RO, cs.SD, eess.AS | コメントを受け付けていません

Diff-TONE: Timestep Optimization for iNstrument Editing in Text-to-Music Diffusion Models

投稿日: 2025年6月19日作成者: jarxiv

要約テキストから音楽の生成モデルのブレークスルーは、創造的な状況を変えており、 … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS, eess.SP | コメントを受け付けていません

Factorized RVQ-GAN For Disentangled Speech Tokenization

投稿日: 2025年6月19日作成者: jarxiv

要約単一のモデルでボトルネックを3つの言語レベルの音響、音声、および語彙型に考 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

PredGen: Accelerated Inference of Large Language Models through Input-Time Speculation for Real-Time Speech Interaction

投稿日: 2025年6月19日作成者: jarxiv

要約大規模な言語モデル（LLMS）は、通常、テキストツーチック（TTS）システ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

A Bird Song Detector for improving bird identification through Deep Learning: a case study from Doñana

投稿日: 2025年6月19日作成者: jarxiv

要約パッシブ音響モニタリングは、生物多様性の保全のための重要なツールですが、監 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.NE, cs.SD, I.2.6 | コメントを受け付けていません

Refining music sample identification with a self-supervised graph neural network

投稿日: 2025年6月18日作成者: jarxiv

要約自動サンプル識別（ASID）、新しい音楽作品で再利用されたオーディオ録音の … 続きを読む →

カテゴリー: cs.AI, cs.IR, cs.SD, H.5.5 | コメントを受け付けていません

Adaptive Accompaniment with ReaLchords

投稿日: 2025年6月18日作成者: jarxiv

要約ジャミングには、ミュージシャン間の調整、期待、共同の創造性が必要です。音 … 続きを読む →

カテゴリー: cs.AI, cs.SD | コメントを受け付けていません

Exploring Speaker Diarization with Mixture of Experts

投稿日: 2025年6月18日作成者: jarxiv

要約このホワイトペーパーでは、メモリ対応のマルチスピーカー埋め込みを使用して、 … 続きを読む →

カテゴリー: cs.AI, cs.SD | コメントを受け付けていません

A Variational Framework for Improving Naturalness in Generative Spoken Language Models

投稿日: 2025年6月18日作成者: jarxiv

要約テキスト処理における大規模な言語モデルの成功により、音声モデリングへの適応 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Qwen vs. Gemma Integration with Whisper: A Comparative Study in Multilingual SpeechLLM Systems

投稿日: 2025年6月17日作成者: jarxiv

要約このペーパーでは、MLC-SLM Challenge 2025のシステムを … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

I Know You’re Listening: Adaptive Voice for HRI

Diff-TONE: Timestep Optimization for iNstrument Editing in Text-to-Music Diffusion Models

Factorized RVQ-GAN For Disentangled Speech Tokenization

PredGen: Accelerated Inference of Large Language Models through Input-Time Speculation for Real-Time Speech Interaction

A Bird Song Detector for improving bird identification through Deep Learning: a case study from Doñana

Refining music sample identification with a self-supervised graph neural network

Adaptive Accompaniment with ReaLchords

Exploring Speaker Diarization with Mixture of Experts

A Variational Framework for Improving Naturalness in Generative Spoken Language Models

Qwen vs. Gemma Integration with Whisper: A Comparative Study in Multilingual SpeechLLM Systems

最近の投稿

最近のコメント

アーカイブ

カテゴリー