cs.SD」カテゴリーアーカイブ

Advancing Topic Segmentation of Broadcasted Speech with Multilingual Semantic Embeddings

要約 音声ベースのトピック セグメンテーションの最近の進歩により、事前トレーニン … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Advancing Topic Segmentation of Broadcasted Speech with Multilingual Semantic Embeddings はコメントを受け付けていません

Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models

要約 音声質問応答タスクには、音声イベント分類、音声キャプション、およびオープン … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models はコメントを受け付けていません

SpeechTaxi: On Multilingual Semantic Speech Classification

要約 多言語音声符号化および文字起こしにおける最近の進歩により、意味論的音声分類 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | SpeechTaxi: On Multilingual Semantic Speech Classification はコメントを受け付けていません

LAST: Language Model Aware Speech Tokenization

要約 音声トークン化は音声言語モデル (LM) の基礎として機能し、音声言語モデ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | LAST: Language Model Aware Speech Tokenization はコメントを受け付けていません

Sortformer: Seamless Integration of Speaker Diarization and ASR by Bridging Timestamps and Tokens

要約 私たちは、既存のエンドツーエンドのダイアライゼーション モデルと比較して型 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Sortformer: Seamless Integration of Speaker Diarization and ASR by Bridging Timestamps and Tokens はコメントを受け付けていません

An Effective Context-Balanced Adaptation Approach for Long-Tailed Speech Recognition

要約 エンドツーエンド (E2E) 自動音声認識 (ASR) モデルは、さまざま … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | An Effective Context-Balanced Adaptation Approach for Long-Tailed Speech Recognition はコメントを受け付けていません

MuPT: A Generative Symbolic Music Pretrained Transformer

要約 この論文では、音楽の事前トレーニングへの大規模言語モデル (LLM) の適 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | MuPT: A Generative Symbolic Music Pretrained Transformer はコメントを受け付けていません

Sine, Transient, Noise Neural Modeling of Piano Notes

要約 この論文では、ピアノサウンドをエミュレートするための新しい方法を紹介します … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Sine, Transient, Noise Neural Modeling of Piano Notes はコメントを受け付けていません

SPMamba: State-space model is all you need in speech separation

要約 既存の CNN ベースの音声分離モデルは、局所的な受容野の制限に直面してお … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | SPMamba: State-space model is all you need in speech separation はコメントを受け付けていません

MoWE-Audio: Multitask AudioLLMs with Mixture of Weak Encoders

要約 大規模言語モデル (LLM) の急速な進歩により、自然言語処理機能が大幅に … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | MoWE-Audio: Multitask AudioLLMs with Mixture of Weak Encoders はコメントを受け付けていません