「eess.AS」カテゴリーアーカイブ

A Suite for Acoustic Language Model Evaluation

投稿日: 2024年11月28日作成者: jarxiv

要約音声言語モデルは最近、汎用音声処理システムとして大きな可能性を示しています … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Continual Learning in Machine Speech Chain Using Gradient Episodic Memory

投稿日: 2024年11月28日作成者: jarxiv

要約自動音声認識 (ASR) システムの継続的な学習には、特に以前に学習したタ … 続きを読む →

カテゴリー: cs.AI, cs.CL, eess.AS | コメントを受け付けていません

AMPS: ASR with Multimodal Paraphrase Supervision

投稿日: 2024年11月28日作成者: jarxiv

要約自発的または会話的な多言語音声は、最先端の自動音声認識 (ASR) システ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, eess.AS | コメントを受け付けていません

Continuous Autoregressive Models with Noise Augmentation Avoid Error Accumulation

投稿日: 2024年11月28日作成者: jarxiv

要約自己回帰モデルは通常、離散トークンのシーケンスに適用されますが、最近の研究 … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Towards Maximum Likelihood Training for Transducer-based Streaming Speech Recognition

投稿日: 2024年11月27日作成者: jarxiv

要約トランスデューサーニューラルネットワークは、ストリーミング自動音声認識 … 続きを読む →

カテゴリー: cs.LG, eess.AS | コメントを受け付けていません

Learning Spatially-Aware Language and Audio Embeddings

投稿日: 2024年11月27日作成者: jarxiv

要約人間は、不正確な自然言語記述が与えられたとしても、音のシーンを思い描くこと … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

WavChat: A Survey of Spoken Dialogue Models

投稿日: 2024年11月27日作成者: jarxiv

要約 GPT-4o などのシステムに代表される音声対話モデルの最近の進歩は、音声 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

The ParlaSpeech Collection of Automatically Generated Speech and Text Datasets from Parliamentary Proceedings

投稿日: 2024年11月27日作成者: jarxiv

要約音声および言語テクノロジにおける最近の大幅な改善は、生の言語データに対する … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Scaling Speech-Text Pre-training with Synthetic Interleaved Data

投稿日: 2024年11月27日作成者: jarxiv

要約音声言語モデル (SpeechLM) は、音声入力を受け入れて音声出力を生 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Automatic Album Sequencing

投稿日: 2024年11月27日作成者: jarxiv

要約アルバムの順序付けは、アルバム制作プロセスの重要な部分です。最近、コレク … 続きを読む →

カテゴリー: 68T07, cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS, I.2.6 | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

A Suite for Acoustic Language Model Evaluation

Continual Learning in Machine Speech Chain Using Gradient Episodic Memory

AMPS: ASR with Multimodal Paraphrase Supervision

Continuous Autoregressive Models with Noise Augmentation Avoid Error Accumulation

Towards Maximum Likelihood Training for Transducer-based Streaming Speech Recognition

Learning Spatially-Aware Language and Audio Embeddings

WavChat: A Survey of Spoken Dialogue Models

The ParlaSpeech Collection of Automatically Generated Speech and Text Datasets from Parliamentary Proceedings

Scaling Speech-Text Pre-training with Synthetic Interleaved Data

Automatic Album Sequencing

最近の投稿

最近のコメント

アーカイブ

カテゴリー