「cs.SD」カテゴリーアーカイブ

ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit

投稿日: 2023年4月12日作成者: jarxiv

要約 TITLE – ESPnet-ST-v2：多目的音声言語翻訳ツ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

An Empirical Study and Improvement for Speech Emotion Recognition

投稿日: 2023年4月11日作成者: jarxiv

要約タイトル：発話感情認識のための実証的研究と改善要約： – マ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

An investigation of speaker independent phrase break models in End-to-End TTS systems

投稿日: 2023年4月11日作成者: jarxiv

要約タイトル：End-to-End TTSシステムにおける話者非依存フレーズブ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Oh, Jeez! or Uh-huh? A Listener-aware Backchannel Predictor on ASR Transcriptions

投稿日: 2023年4月11日作成者: jarxiv

要約タイトル：音声認識転写におけるリスナーアウェアなバックチャンネル予測要約 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit

投稿日: 2023年4月11日作成者: jarxiv

要約タイトル：ESPnet-ST-v2：多目的口頭言語翻訳ツールキット要約： … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for Multilingual Speech to Image Retrieval

投稿日: 2023年4月11日作成者: jarxiv

要約タイトル：M-SpeechCLIP：大規模な事前トレーニング済みモデルを利 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Enhancing Speech-to-Speech Translation with Multiple TTS Targets

投稿日: 2023年4月11日作成者: jarxiv

要約タイトル：複数のTTSターゲットを用いた音声-音声翻訳の向上要約： &# … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

FAIR4Cov: Fused Audio Instance and Representation for COVID-19 Detection

投稿日: 2023年4月11日作成者: jarxiv

要約タイトル： FAIR4Cov: COVID-19検出のための融合されたオー … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Anomalous Sound Detection using Audio Representation with Machine ID based Contrastive Learning Pretraining

投稿日: 2023年4月11日作成者: jarxiv

要約タイトル：機械IDベースの対比学習による音声表現を用いた異常音の検出要約 … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

To Wake-up or Not to Wake-up: Reducing Keyword False Alarm by Successive Refinement

投稿日: 2023年4月10日作成者: jarxiv

要約タイトル：連続した改善によるキーワードの誤設定の軽減要約： &#821 … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS, eess.SP | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit

An Empirical Study and Improvement for Speech Emotion Recognition

An investigation of speaker independent phrase break models in End-to-End TTS systems

Oh, Jeez! or Uh-huh? A Listener-aware Backchannel Predictor on ASR Transcriptions

ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit

M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for Multilingual Speech to Image Retrieval

Enhancing Speech-to-Speech Translation with Multiple TTS Targets

FAIR4Cov: Fused Audio Instance and Representation for COVID-19 Detection

Anomalous Sound Detection using Audio Representation with Machine ID based Contrastive Learning Pretraining

To Wake-up or Not to Wake-up: Reducing Keyword False Alarm by Successive Refinement

最近の投稿

最近のコメント

アーカイブ

カテゴリー