eess.AS」カテゴリーアーカイブ

Toward A Reinforcement-Learning-Based System for Adjusting Medication to Minimize Speech Disfluency

要約 私たちは強化学習ベースのシステムを提案します。このシステムは、メンタルヘル … 続きを読む

カテゴリー: cs.CL, cs.LG, eess.AS | Toward A Reinforcement-Learning-Based System for Adjusting Medication to Minimize Speech Disfluency はコメントを受け付けていません

Efficient Multiscale Multimodal Bottleneck Transformer for Audio-Video Classification

要約 近年、研究者は音声信号とビデオ信号の両方を組み合わせて、アクションが視覚的 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | Efficient Multiscale Multimodal Bottleneck Transformer for Audio-Video Classification はコメントを受け付けていません

Towards ASR Robust Spoken Language Understanding Through In-Context Learning With Word Confusion Networks

要約 音声言語理解 (SLU) の分野では、従来の書き言葉の代わりに音声を書き起 … 続きを読む

カテゴリー: cs.CL, eess.AS | Towards ASR Robust Spoken Language Understanding Through In-Context Learning With Word Confusion Networks はコメントを受け付けていません

Retrieval-Augmented Text-to-Audio Generation

要約 Text-to-Audio (TTA) 生成における最近の進歩にも関わらず … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | Retrieval-Augmented Text-to-Audio Generation はコメントを受け付けていません

Pheme: Efficient and Conversational Speech Generation

要約 近年、音声生成は目覚ましい進歩を遂げており、実際の人間の声とほとんど区別で … 続きを読む

カテゴリー: cs.AI, cs.CL, eess.AS | Pheme: Efficient and Conversational Speech Generation はコメントを受け付けていません

Direction of Arrival Estimation Using Microphone Array Processing for Moving Humanoid Robots

要約 人型ロボットの聴覚システムは、近年ますます注目を集めています。 このシステ … 続きを読む

カテゴリー: cs.RO, cs.SD, eess.AS | Direction of Arrival Estimation Using Microphone Array Processing for Moving Humanoid Robots はコメントを受け付けていません

PEFT for Speech: Unveiling Optimal Placement, Merging Strategies, and Ensemble Techniques

要約 PEFT(Parameter-Efficient Fine-Tuning) … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | PEFT for Speech: Unveiling Optimal Placement, Merging Strategies, and Ensemble Techniques はコメントを受け付けていません

Task Oriented Dialogue as a Catalyst for Self-Supervised Automatic Speech Recognition

要約 自動音声認識(ASR)システムの単語エラー率は一貫して低下しているが、AS … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Task Oriented Dialogue as a Catalyst for Self-Supervised Automatic Speech Recognition はコメントを受け付けていません

Let There Be Sound: Reconstructing High Quality Speech from Silent Videos

要約 この研究の目標は、唇の動きのみから高品質の音声を再構成することであり、この … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Let There Be Sound: Reconstructing High Quality Speech from Silent Videos はコメントを受け付けていません

Perceptual Musical Features for Interpretable Audio Tagging

要約 音楽ストリーミングプラットフォームの時代において、音楽音声に自動的にタグを … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Perceptual Musical Features for Interpretable Audio Tagging はコメントを受け付けていません