「eess.AS」カテゴリーアーカイブ

Exploratory Evaluation of Speech Content Masking

投稿日: 2024年1月9日作成者: jarxiv

要約最近の音声プライバシーの取り組みのほとんどは、音響話者の属性を匿名化するこ … 続きを読む →

カテゴリー: cs.CR, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Highly Efficient Real-Time Streaming and Fully On-Device Speaker Diarization with Multi-Stage Clustering

投稿日: 2024年1月9日作成者: jarxiv

要約話者ダイアライゼーションにおける最近の研究の進歩は、主にダイアライゼーショ … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Convoifilter: A case study of doing cocktail party speech recognition

投稿日: 2024年1月9日作成者: jarxiv

要約このペーパーでは、混雑した騒々しい環境における特定の話者の自動音声認識 ( … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Toward A Reinforcement-Learning-Based System for Adjusting Medication to Minimize Speech Disfluency

投稿日: 2024年1月9日作成者: jarxiv

要約私たちは強化学習ベースのシステムを提案します。このシステムは、メンタルヘル … 続きを読む →

カテゴリー: cs.CL, cs.LG, eess.AS | コメントを受け付けていません

Efficient Multiscale Multimodal Bottleneck Transformer for Audio-Video Classification

投稿日: 2024年1月9日作成者: jarxiv

要約近年、研究者は音声信号とビデオ信号の両方を組み合わせて、アクションが視覚的 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Towards ASR Robust Spoken Language Understanding Through In-Context Learning With Word Confusion Networks

投稿日: 2024年1月8日作成者: jarxiv

要約音声言語理解 (SLU) の分野では、従来の書き言葉の代わりに音声を書き起 … 続きを読む →

カテゴリー: cs.CL, eess.AS | コメントを受け付けていません

Retrieval-Augmented Text-to-Audio Generation

投稿日: 2024年1月8日作成者: jarxiv

要約 Text-to-Audio (TTA) 生成における最近の進歩にも関わらず … 続きを読む →

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Pheme: Efficient and Conversational Speech Generation

投稿日: 2024年1月8日作成者: jarxiv

要約近年、音声生成は目覚ましい進歩を遂げており、実際の人間の声とほとんど区別で … 続きを読む →

カテゴリー: cs.AI, cs.CL, eess.AS | コメントを受け付けていません

Direction of Arrival Estimation Using Microphone Array Processing for Moving Humanoid Robots

投稿日: 2024年1月5日作成者: jarxiv

要約人型ロボットの聴覚システムは、近年ますます注目を集めています。このシステ … 続きを読む →

カテゴリー: cs.RO, cs.SD, eess.AS | コメントを受け付けていません

PEFT for Speech: Unveiling Optimal Placement, Merging Strategies, and Ensemble Techniques

投稿日: 2024年1月5日作成者: jarxiv

要約 PEFT（Parameter-Efficient Fine-Tuning） … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Exploratory Evaluation of Speech Content Masking

Highly Efficient Real-Time Streaming and Fully On-Device Speaker Diarization with Multi-Stage Clustering

Convoifilter: A case study of doing cocktail party speech recognition

Toward A Reinforcement-Learning-Based System for Adjusting Medication to Minimize Speech Disfluency

Efficient Multiscale Multimodal Bottleneck Transformer for Audio-Video Classification

Towards ASR Robust Spoken Language Understanding Through In-Context Learning With Word Confusion Networks

Retrieval-Augmented Text-to-Audio Generation

Pheme: Efficient and Conversational Speech Generation

Direction of Arrival Estimation Using Microphone Array Processing for Moving Humanoid Robots

PEFT for Speech: Unveiling Optimal Placement, Merging Strategies, and Ensemble Techniques

最近の投稿

最近のコメント

アーカイブ

カテゴリー