eess.AS」カテゴリーアーカイブ

Reacting like Humans: Incorporating Intrinsic Human Behaviors into NAO through Sound-Based Reactions to Fearful and Shocking Events for Enhanced Sociability

要約 人間に似た反応を組み込むことで、人間の間でのロボットの受容性と社会性を大幅 … 続きを読む

カテゴリー: 68T40, cs.AI, cs.LG, cs.RO, cs.SD, eess.AS, eess.IV | Reacting like Humans: Incorporating Intrinsic Human Behaviors into NAO through Sound-Based Reactions to Fearful and Shocking Events for Enhanced Sociability はコメントを受け付けていません

Integrating Pre-Trained Speech and Language Models for End-to-End Speech Recognition

要約 機械学習の進歩により、自動音声認識 (ASR) などのさまざまなテキストお … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, eess.AS | Integrating Pre-Trained Speech and Language Models for End-to-End Speech Recognition はコメントを受け付けていません

RECAP: Retrieval-Augmented Audio Captioning

要約 RECAP (REtrieval-Augmented Audio CAPt … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | RECAP: Retrieval-Augmented Audio Captioning はコメントを受け付けていません

Robots Have Been Seen and Not Heard: Effects of Consequential Sounds on Human-Perception of Robots

要約 多くの人は、ロボットがかなり静かに動くこと、あるいはロボットのビデオで見た … 続きを読む

カテゴリー: cs.RO, eess.AS | Robots Have Been Seen and Not Heard: Effects of Consequential Sounds on Human-Perception of Robots はコメントを受け付けていません

HAAQI-Net: A Non-intrusive Neural Music Audio Quality Assessment Model for Hearing Aids

要約 この文書では、補聴器ユーザー向けに調整された音楽音質評価のための非侵入型デ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | HAAQI-Net: A Non-intrusive Neural Music Audio Quality Assessment Model for Hearing Aids はコメントを受け付けていません

The PESQetarian: On the Relevance of Goodhart’s Law for Speech Enhancement

要約 改善された音声強調モデルを取得するために、研究者は多くの場合、特定の計測基 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | The PESQetarian: On the Relevance of Goodhart’s Law for Speech Enhancement はコメントを受け付けていません

Audio Mamba: Bidirectional State Space Model for Audio Representation Learning

要約 トランスフォーマーは、CNN に基づく方法を超えて、急速にオーディオ分類に … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Audio Mamba: Bidirectional State Space Model for Audio Representation Learning はコメントを受け付けていません

Language-Universal Speech Attributes Modeling for Zero-Shot Multilingual Spoken Keyword Recognition

要約 我々は、(i) 自己教師付きの事前トレーニング済みモデル、および (ii) … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Language-Universal Speech Attributes Modeling for Zero-Shot Multilingual Spoken Keyword Recognition はコメントを受け付けていません

Efficient Fine-tuning of Audio Spectrogram Transformers via Soft Mixture of Adapters

要約 Mixture of Experts (MoE) アーキテクチャは、手頃な … 続きを読む

カテゴリー: cs.AI, eess.AS | Efficient Fine-tuning of Audio Spectrogram Transformers via Soft Mixture of Adapters はコメントを受け付けていません

Explainable Deep Learning Analysis for Raga Identification in Indian Art Music

要約 ラーガ識別のタスクは、音楽情報検索において非常に人気のある研究課題です。 … 続きを読む

カテゴリー: cs.AI, eess.AS | Explainable Deep Learning Analysis for Raga Identification in Indian Art Music はコメントを受け付けていません