「cs.SD」カテゴリーアーカイブ

Medical Spoken Named Entity Recognition

投稿日: 2025年4月3日作成者: jarxiv

要約話された名前の名前のエンティティ認識（NER）は、スピーチから名前のエンテ … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions

投稿日: 2025年4月3日作成者: jarxiv

要約大規模な言語モデル（LLM）の最近の進歩は、さまざまなドメインに革命をもた … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Enabling Auditory Large Language Models for Automatic Speech Quality Evaluation

投稿日: 2025年4月2日作成者: jarxiv

要約音声品質評価では、通常、平均意見スコア（MOS）やスピーカーの類似性（SI … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

QualiSpeech: A Speech Quality Assessment Dataset with Natural Language Reasoning and Descriptions

投稿日: 2025年4月2日作成者: jarxiv

要約このペーパーでは、自然言語の説明を活用することにより、音声品質評価に対する … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Continuous Speech Tokenizer in Text To Speech

投稿日: 2025年4月1日作成者: jarxiv

要約大規模な言語モデルの時代における言語と言語の融合は、大きな注目を集めていま … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

MoMuSE: Momentum Multi-modal Target Speaker Extraction for Real-time Scenarios with Impaired Visual Cues

投稿日: 2025年4月1日作成者: jarxiv

要約オーディオビジュアルターゲットスピーカー抽出（AV-TSE）は、時間同期さ … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Audio-Plane: Audio Factorization Plane Gaussian Splatting for Real-Time Talking Head Synthesis

投稿日: 2025年3月31日作成者: jarxiv

要約トーキングヘッド合成は、コンピューターグラフィックスとマルチメディアの重要 … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.SD, eess.AS | コメントを受け付けていません

Whistle: Data-Efficient Multilingual and Crosslingual Speech Recognition via Weakly Phonetic Supervision

投稿日: 2025年3月28日作成者: jarxiv

要約多言語および相互自動音声認識（MCL-ASR） – 音声または … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Magnitude-Phase Dual-Path Speech Enhancement Network based on Self-Supervised Embedding and Perceptual Contrast Stretch Boosting

投稿日: 2025年3月28日作成者: jarxiv

要約スピーチの自己学習学習（SSL）は、さまざまな音声処理タスクで大きな進歩を … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

MAVERIX: Multimodal Audio-Visual Evaluation Reasoning IndeX

投稿日: 2025年3月28日作成者: jarxiv

要約フロンティアモデルは言語のみであるか、主にビジョンと言語のモダリティに焦点 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.SD | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

Medical Spoken Named Entity Recognition

Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions

Enabling Auditory Large Language Models for Automatic Speech Quality Evaluation

QualiSpeech: A Speech Quality Assessment Dataset with Natural Language Reasoning and Descriptions

Continuous Speech Tokenizer in Text To Speech

MoMuSE: Momentum Multi-modal Target Speaker Extraction for Real-time Scenarios with Impaired Visual Cues

Audio-Plane: Audio Factorization Plane Gaussian Splatting for Real-Time Talking Head Synthesis

Whistle: Data-Efficient Multilingual and Crosslingual Speech Recognition via Weakly Phonetic Supervision

Magnitude-Phase Dual-Path Speech Enhancement Network based on Self-Supervised Embedding and Perceptual Contrast Stretch Boosting

MAVERIX: Multimodal Audio-Visual Evaluation Reasoning IndeX

最近の投稿

最近のコメント

アーカイブ

カテゴリー