「cs.SD」カテゴリーアーカイブ

IR-UWB Radar-Based Contactless Silent Speech Recognition of Vowels, Consonants, Words, and Phrases

投稿日: 2023年12月18日作成者: jarxiv

要約無声音声認識 (SSR) については、いくつかのセンシング技術が提案されて … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Phoneme-aware Encoding for Prefix-tree-based Contextual ASR

投稿日: 2023年12月18日作成者: jarxiv

要約音声認識アプリケーションでは、固有名詞などの文脈固有の珍しい単語を認識する … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Leveraging Language ID to Calculate Intermediate CTC Loss for Enhanced Code-Switching Speech Recognition

投稿日: 2023年12月18日作成者: jarxiv

要約近年、エンドツーエンドの音声認識は、従来の自動音声認識モデルの音響、発音辞 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

HEAR: Hearing Enhanced Audio Response for Video-grounded Dialogue

投稿日: 2023年12月18日作成者: jarxiv

要約 Video-grounded Dialogue (VGD) は、ビデオ、オ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Dementia Assessment Using Mandarin Speech with an Attention-based Speech Recognition Encoder

投稿日: 2023年12月18日作成者: jarxiv

要約認知症の診断には一連の異なる検査方法が必要ですが、これは複雑で時間がかかり … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Generative Context-aware Fine-tuning of Self-supervised Speech Models

投稿日: 2023年12月18日作成者: jarxiv

要約特定の発話に対する自動音声認識や話し言葉の理解などのタスクを実行する場合、 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

STaR: Distilling Speech Temporal Relation for Lightweight Speech Self-Supervised Learning Models

投稿日: 2023年12月15日作成者: jarxiv

要約 Transformer ベースの音声自己教師あり学習 (SSL) モデルは … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

SER_AMPEL: a multi-source dataset for speech emotion recognition of Italian older adults

投稿日: 2023年12月15日作成者: jarxiv

要約この論文では、音声感情認識 (SER) 用のマルチソースデータセットであ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

WikiMuTe: A web-sourced dataset of semantic descriptions for music audio

投稿日: 2023年12月15日作成者: jarxiv

要約自由形式のテキストと音楽を照合するマルチモーダル深層学習技術は、音楽情報検 … 続きを読む →

カテゴリー: cs.CL, cs.IR, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Design, construction and evaluation of emotional multimodal pathological speech database

投稿日: 2023年12月15日作成者: jarxiv

要約利用可能な感情病理学データベースの欠如は、構音障害患者の感情表現状態を研究 … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS, eess.SP | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

IR-UWB Radar-Based Contactless Silent Speech Recognition of Vowels, Consonants, Words, and Phrases

Phoneme-aware Encoding for Prefix-tree-based Contextual ASR

Leveraging Language ID to Calculate Intermediate CTC Loss for Enhanced Code-Switching Speech Recognition

HEAR: Hearing Enhanced Audio Response for Video-grounded Dialogue

Dementia Assessment Using Mandarin Speech with an Attention-based Speech Recognition Encoder

Generative Context-aware Fine-tuning of Self-supervised Speech Models

STaR: Distilling Speech Temporal Relation for Lightweight Speech Self-Supervised Learning Models

SER_AMPEL: a multi-source dataset for speech emotion recognition of Italian older adults

WikiMuTe: A web-sourced dataset of semantic descriptions for music audio

Design, construction and evaluation of emotional multimodal pathological speech database

最近の投稿

最近のコメント

アーカイブ

カテゴリー