cs.SD」カテゴリーアーカイブ

Medical Spoken Named Entity Recognition

要約 話された名前の名前のエンティティ認識(NER)は、スピーチから名前のエンテ … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Medical Spoken Named Entity Recognition はコメントを受け付けていません

Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions

要約 大規模な言語モデル(LLM)の最近の進歩は、さまざまなドメインに革命をもた … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions はコメントを受け付けていません

Enabling Auditory Large Language Models for Automatic Speech Quality Evaluation

要約 音声品質評価では、通常、平均意見スコア(MOS)やスピーカーの類似性(SI … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Enabling Auditory Large Language Models for Automatic Speech Quality Evaluation はコメントを受け付けていません

QualiSpeech: A Speech Quality Assessment Dataset with Natural Language Reasoning and Descriptions

要約 このペーパーでは、自然言語の説明を活用することにより、音声品質評価に対する … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | QualiSpeech: A Speech Quality Assessment Dataset with Natural Language Reasoning and Descriptions はコメントを受け付けていません

Continuous Speech Tokenizer in Text To Speech

要約 大規模な言語モデルの時代における言語と言語の融合は、大きな注目を集めていま … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Continuous Speech Tokenizer in Text To Speech はコメントを受け付けていません

MoMuSE: Momentum Multi-modal Target Speaker Extraction for Real-time Scenarios with Impaired Visual Cues

要約 オーディオビジュアルターゲットスピーカー抽出(AV-TSE)は、時間同期さ … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | MoMuSE: Momentum Multi-modal Target Speaker Extraction for Real-time Scenarios with Impaired Visual Cues はコメントを受け付けていません

Audio-Plane: Audio Factorization Plane Gaussian Splatting for Real-Time Talking Head Synthesis

要約 トーキングヘッド合成は、コンピューターグラフィックスとマルチメディアの重要 … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.SD, eess.AS | Audio-Plane: Audio Factorization Plane Gaussian Splatting for Real-Time Talking Head Synthesis はコメントを受け付けていません

Whistle: Data-Efficient Multilingual and Crosslingual Speech Recognition via Weakly Phonetic Supervision

要約 多言語および相互自動音声認識(MCL-ASR) – 音声または … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Whistle: Data-Efficient Multilingual and Crosslingual Speech Recognition via Weakly Phonetic Supervision はコメントを受け付けていません

Magnitude-Phase Dual-Path Speech Enhancement Network based on Self-Supervised Embedding and Perceptual Contrast Stretch Boosting

要約 スピーチの自己学習学習(SSL)は、さまざまな音声処理タスクで大きな進歩を … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Magnitude-Phase Dual-Path Speech Enhancement Network based on Self-Supervised Embedding and Perceptual Contrast Stretch Boosting はコメントを受け付けていません

MAVERIX: Multimodal Audio-Visual Evaluation Reasoning IndeX

要約 フロンティアモデルは言語のみであるか、主にビジョンと言語のモダリティに焦点 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.SD | MAVERIX: Multimodal Audio-Visual Evaluation Reasoning IndeX はコメントを受け付けていません