eess.AS」カテゴリーアーカイブ

HEAR: Hearing Enhanced Audio Response for Video-grounded Dialogue

要約 Video-grounded Dialogue (VGD) は、ビデオ、オ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | HEAR: Hearing Enhanced Audio Response for Video-grounded Dialogue はコメントを受け付けていません

Dementia Assessment Using Mandarin Speech with an Attention-based Speech Recognition Encoder

要約 認知症の診断には一連の異なる検査方法が必要ですが、これは複雑で時間がかかり … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Dementia Assessment Using Mandarin Speech with an Attention-based Speech Recognition Encoder はコメントを受け付けていません

Generative Context-aware Fine-tuning of Self-supervised Speech Models

要約 特定の発話に対する自動音声認識や話し言葉の理解などのタスクを実行する場合、 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Generative Context-aware Fine-tuning of Self-supervised Speech Models はコメントを受け付けていません

STaR: Distilling Speech Temporal Relation for Lightweight Speech Self-Supervised Learning Models

要約 Transformer ベースの音声自己教師あり学習 (SSL) モデルは … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | STaR: Distilling Speech Temporal Relation for Lightweight Speech Self-Supervised Learning Models はコメントを受け付けていません

SER_AMPEL: a multi-source dataset for speech emotion recognition of Italian older adults

要約 この論文では、音声感情認識 (SER) 用のマルチソース データセットであ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | SER_AMPEL: a multi-source dataset for speech emotion recognition of Italian older adults はコメントを受け付けていません

WikiMuTe: A web-sourced dataset of semantic descriptions for music audio

要約 自由形式のテキストと音楽を照合するマルチモーダル深層学習技術は、音楽情報検 … 続きを読む

カテゴリー: cs.CL, cs.IR, cs.LG, cs.SD, eess.AS | WikiMuTe: A web-sourced dataset of semantic descriptions for music audio はコメントを受け付けていません

Design, construction and evaluation of emotional multimodal pathological speech database

要約 利用可能な感情病理学データベースの欠如は、構音障害患者の感情表現状態を研究 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS, eess.SP | Design, construction and evaluation of emotional multimodal pathological speech database はコメントを受け付けていません

Reacting like Humans: Incorporating Intrinsic Human Behaviors into NAO through Sound-Based Reactions for Enhanced Sociability

要約 人間に似た反応を組み込むことで、人間の間でのロボットの受容性と社会性を大幅 … 続きを読む

カテゴリー: 68T40, cs.AI, cs.LG, cs.RO, cs.SD, eess.AS, eess.IV | Reacting like Humans: Incorporating Intrinsic Human Behaviors into NAO through Sound-Based Reactions for Enhanced Sociability はコメントを受け付けていません

Ultra Low Complexity Deep Learning Based Noise Suppression

要約 この論文では、リソースに制約のあるデバイス上でリアルタイムの音声強調を行う … 続きを読む

カテゴリー: cs.LG, eess.AS, eess.SP | Ultra Low Complexity Deep Learning Based Noise Suppression はコメントを受け付けていません

Conformers are All You Need for Visual Speech Recognition

要約 視覚的音声認識モデルは、階層的な方法で視覚的特徴を抽出します。 下位レベル … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.SD, eess.AS | Conformers are All You Need for Visual Speech Recognition はコメントを受け付けていません