cs.SD」カテゴリーアーカイブ

Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM

要約 大規模言語モデル (LLM) の急速な発展により、膨大なインテリジェントな … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM はコメントを受け付けていません

mHuBERT-147: A Compact Multilingual HuBERT Model

要約 我々は、90,000 時間のクリーンなオープンライセンス データでトレーニ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | mHuBERT-147: A Compact Multilingual HuBERT Model はコメントを受け付けていません

HARP: A Large-Scale Higher-Order Ambisonic Room Impulse Response Dataset

要約 この寄稿では、イメージ ソース メソッドを使用して作成された 7 次アンビ … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | HARP: A Large-Scale Higher-Order Ambisonic Room Impulse Response Dataset はコメントを受け付けていません

Classification of Heart Sounds Using Multi-Branch Deep Convolutional Network and LSTM-CNN

要約 この論文では、診療所で低コストのシステムを使用して、心臓の異常を高精度かつ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS, eess.SP | Classification of Heart Sounds Using Multi-Branch Deep Convolutional Network and LSTM-CNN はコメントを受け付けていません

Hard-Synth: Synthesizing Diverse Hard Samples for ASR using Zero-Shot TTS and LLM

要約 テキスト読み上げ (TTS) モデルは、テキストのみのコーパスを使用して自 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Hard-Synth: Synthesizing Diverse Hard Samples for ASR using Zero-Shot TTS and LLM はコメントを受け付けていません

Predicting User Intents and Musical Attributes from Music Discovery Conversations

要約 意図分類は、入力テキスト クエリからユーザーのニーズを特定するテキスト理解 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Predicting User Intents and Musical Attributes from Music Discovery Conversations はコメントを受け付けていません

CAFE A Novel Code switching Dataset for Algerian Dialect French and English

要約 この論文では、アルジェリアの方言、フランス語、および英語の間の最初のコード … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | CAFE A Novel Code switching Dataset for Algerian Dialect French and English はコメントを受け付けていません

Comparative Analysis of Audio Feature Extraction for Real-Time Talking Portrait Synthesis

要約 このペーパーでは、リアルタイム アプリケーションで遅延が発生し、応答性が制 … 続きを読む

カテゴリー: 68T01, 68T07, 68T45, cs.AI, cs.HC, cs.SD, eess.AS | Comparative Analysis of Audio Feature Extraction for Real-Time Talking Portrait Synthesis はコメントを受け付けていません

Basic syntax from speech: Spontaneous concatenation in unsupervised deep neural networks

要約 構文の計算モデルは主にテキストベースです。 ここで私たちは、構文の進化にお … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Basic syntax from speech: Spontaneous concatenation in unsupervised deep neural networks はコメントを受け付けていません

Rethinking MUSHRA: Addressing Modern Challenges in Text-to-Speech Evaluation

要約 TTS モデルは急速に進歩していますが、一貫した堅牢な人間による評価フレー … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Rethinking MUSHRA: Addressing Modern Challenges in Text-to-Speech Evaluation はコメントを受け付けていません