cs.SD」カテゴリーアーカイブ

Inter-linguistic Phonetic Composition (IPC): A Theoretical and Computational Approach to Enhance Second Language Pronunciation

要約 第 2 言語 (L2) の学習者は、L2 の母語話者がこれらの音を別個で交 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS, H.5.5 | Inter-linguistic Phonetic Composition (IPC): A Theoretical and Computational Approach to Enhance Second Language Pronunciation はコメントを受け付けていません

A Suite for Acoustic Language Model Evaluation

要約 音声言語モデルは最近、汎用音声処理システムとして大きな可能性を示しています … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | A Suite for Acoustic Language Model Evaluation はコメントを受け付けていません

Continuous Autoregressive Models with Noise Augmentation Avoid Error Accumulation

要約 自己回帰モデルは通常、離散トークンのシーケンスに適用されますが、最近の研究 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Continuous Autoregressive Models with Noise Augmentation Avoid Error Accumulation はコメントを受け付けていません

Learning Spatially-Aware Language and Audio Embeddings

要約 人間は、不正確な自然言語記述が与えられたとしても、音のシーンを思い描くこと … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Learning Spatially-Aware Language and Audio Embeddings はコメントを受け付けていません

WavChat: A Survey of Spoken Dialogue Models

要約 GPT-4o などのシステムに代表される音声対話モデルの最近の進歩は、音声 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | WavChat: A Survey of Spoken Dialogue Models はコメントを受け付けていません

The ParlaSpeech Collection of Automatically Generated Speech and Text Datasets from Parliamentary Proceedings

要約 音声および言語テクノロジにおける最近の大幅な改善は、生の言語データに対する … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | The ParlaSpeech Collection of Automatically Generated Speech and Text Datasets from Parliamentary Proceedings はコメントを受け付けていません

Scaling Speech-Text Pre-training with Synthetic Interleaved Data

要約 音声言語モデル (SpeechLM) は、音声入力を受け入れて音声出力を生 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Scaling Speech-Text Pre-training with Synthetic Interleaved Data はコメントを受け付けていません

Automatic Album Sequencing

要約 アルバムの順序付けは、アルバム制作プロセスの重要な部分です。 最近、コレク … 続きを読む

カテゴリー: 68T07, cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS, I.2.6 | Automatic Album Sequencing はコメントを受け付けていません

DeltaKWS: A 65nm 36nJ/Decision Bio-inspired Temporal-Sparsity-Aware Digital Keyword Spotting IC with 0.6V Near-Threshold SRAM

要約 この文書では、私たちの知る限り、音声制御デバイス向けの $\Delta$R … 続きを読む

カテゴリー: cs.AR, cs.CV, cs.SD, eess.AS | DeltaKWS: A 65nm 36nJ/Decision Bio-inspired Temporal-Sparsity-Aware Digital Keyword Spotting IC with 0.6V Near-Threshold SRAM はコメントを受け付けていません

Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis

要約 この論文では、マルチモーダル音声生成のための新しい技術を動機付けるために、 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis はコメントを受け付けていません