cs.SD」カテゴリーアーカイブ

I Know You’re Listening: Adaptive Voice for HRI

要約 言語教育のためのソーシャルロボットの使用が調査されていますが、言語教育ロボ … 続きを読む

カテゴリー: cs.HC, cs.RO, cs.SD, eess.AS | I Know You’re Listening: Adaptive Voice for HRI はコメントを受け付けていません

Diff-TONE: Timestep Optimization for iNstrument Editing in Text-to-Music Diffusion Models

要約 テキストから音楽の生成モデルのブレークスルーは、創造的な状況を変えており、 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS, eess.SP | Diff-TONE: Timestep Optimization for iNstrument Editing in Text-to-Music Diffusion Models はコメントを受け付けていません

Factorized RVQ-GAN For Disentangled Speech Tokenization

要約 単一のモデルでボトルネックを3つの言語レベルの音響、音声、および語彙型に考 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Factorized RVQ-GAN For Disentangled Speech Tokenization はコメントを受け付けていません

PredGen: Accelerated Inference of Large Language Models through Input-Time Speculation for Real-Time Speech Interaction

要約 大規模な言語モデル(LLMS)は、通常、テキストツーチック(TTS)システ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | PredGen: Accelerated Inference of Large Language Models through Input-Time Speculation for Real-Time Speech Interaction はコメントを受け付けていません

A Bird Song Detector for improving bird identification through Deep Learning: a case study from Doñana

要約 パッシブ音響モニタリングは、生物多様性の保全のための重要なツールですが、監 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.NE, cs.SD, I.2.6 | A Bird Song Detector for improving bird identification through Deep Learning: a case study from Doñana はコメントを受け付けていません

Refining music sample identification with a self-supervised graph neural network

要約 自動サンプル識別(ASID)、新しい音楽作品で再利用されたオーディオ録音の … 続きを読む

カテゴリー: cs.AI, cs.IR, cs.SD, H.5.5 | Refining music sample identification with a self-supervised graph neural network はコメントを受け付けていません

Adaptive Accompaniment with ReaLchords

要約 ジャミングには、ミュージシャン間の調整、期待、共同の創造性が必要です。 音 … 続きを読む

カテゴリー: cs.AI, cs.SD | Adaptive Accompaniment with ReaLchords はコメントを受け付けていません

Exploring Speaker Diarization with Mixture of Experts

要約 このホワイトペーパーでは、メモリ対応のマルチスピーカー埋め込みを使用して、 … 続きを読む

カテゴリー: cs.AI, cs.SD | Exploring Speaker Diarization with Mixture of Experts はコメントを受け付けていません

A Variational Framework for Improving Naturalness in Generative Spoken Language Models

要約 テキスト処理における大規模な言語モデルの成功により、音声モデリングへの適応 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | A Variational Framework for Improving Naturalness in Generative Spoken Language Models はコメントを受け付けていません

Qwen vs. Gemma Integration with Whisper: A Comparative Study in Multilingual SpeechLLM Systems

要約 このペーパーでは、MLC-SLM Challenge 2025のシステムを … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Qwen vs. Gemma Integration with Whisper: A Comparative Study in Multilingual SpeechLLM Systems はコメントを受け付けていません