「eess.AS」カテゴリーアーカイブ

Say Goodbye to RNN-T Loss: A Novel CIF-based Transducer Architecture for Automatic Speech Recognition

投稿日: 2023年7月27日作成者: jarxiv

要約 RNN-T モデルは ASR で広く使用されており、RNN-T 損失に依存 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

WavJourney: Compositional Audio Creation with Large Language Models

投稿日: 2023年7月27日作成者: jarxiv

要約大規模言語モデル (LLM) は、複雑な言語と視覚のタスクに取り組むために … 続きを読む →

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Adversarial Agents For Attacking Inaudible Voice Activated Devices

投稿日: 2023年7月26日作成者: jarxiv

要約この論文では、強化学習を新しいモノのインターネット構成に適用しています。 … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Estimating speaker direction on a humanoid robot with binaural acoustic signals

投稿日: 2023年7月25日作成者: jarxiv

要約音声対話中に人間のような動作を実現するには、人型ロボットが人間の話者の位置 … 続きを読む →

カテゴリー: cs.RO, cs.SD, eess.AS | コメントを受け付けていません

Robust Automatic Speech Recognition via WavAugment Guided Phoneme Adversarial Training

投稿日: 2023年7月25日作成者: jarxiv

要約モデルはクリーンなサンプルで元のパフォーマンスを維持するだけでなく、小さな … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

A Model for Every User and Budget: Label-Free and Personalized Mixed-Precision Quantization

投稿日: 2023年7月25日作成者: jarxiv

要約自動音声認識 (ASR) の最近の進歩により、大規模な AI モデルが生成 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Code-Switched Urdu ASR for Noisy Telephonic Environment using Data Centric Approach with Hybrid HMM and CNN-TDNN

投稿日: 2023年7月25日作成者: jarxiv

要約コールセンターには、ビジネス上の貴重な洞察を得るために使用できる膨大な量の … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

MeetEval: A Toolkit for Computation of Word Error Rates for Meeting Transcription Systems

投稿日: 2023年7月24日作成者: jarxiv

要約 MeetEval は、あらゆる種類の会議文字起こしシステムを評価するための … 続きを読む →

カテゴリー: cs.CL, eess.AS | コメントを受け付けていません

Topic Identification For Spontaneous Speech: Enriching Audio Features With Embedded Linguistic Information

投稿日: 2023年7月24日作成者: jarxiv

要約音声からの従来のトピック識別ソリューションは、自動音声認識システム (AS … 続きを読む →

カテゴリー: cs.CL, eess.AS | コメントを受け付けていません

A Change of Heart: Improving Speech Emotion Recognition through Speech-to-Text Modality Conversion

投稿日: 2023年7月24日作成者: jarxiv

要約音声感情認識 (SER) は困難なタスクです。この論文では、MELD デ … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Say Goodbye to RNN-T Loss: A Novel CIF-based Transducer Architecture for Automatic Speech Recognition

WavJourney: Compositional Audio Creation with Large Language Models

Adversarial Agents For Attacking Inaudible Voice Activated Devices

Estimating speaker direction on a humanoid robot with binaural acoustic signals

Robust Automatic Speech Recognition via WavAugment Guided Phoneme Adversarial Training

A Model for Every User and Budget: Label-Free and Personalized Mixed-Precision Quantization

Code-Switched Urdu ASR for Noisy Telephonic Environment using Data Centric Approach with Hybrid HMM and CNN-TDNN

MeetEval: A Toolkit for Computation of Word Error Rates for Meeting Transcription Systems

Topic Identification For Spontaneous Speech: Enriching Audio Features With Embedded Linguistic Information

A Change of Heart: Improving Speech Emotion Recognition through Speech-to-Text Modality Conversion

最近の投稿

最近のコメント

アーカイブ

カテゴリー