「cs.SD」カテゴリーアーカイブ

OLISIA: a Cascade System for Spoken Dialogue State Tracking

投稿日: 2023年8月30日作成者: jarxiv

要約 Dialogue State Tracking (DST) は音声対話シス … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Let There Be Sound: Reconstructing High Quality Speech from Silent Videos

投稿日: 2023年8月30日作成者: jarxiv

要約この研究の目標は、唇の動きだけから高品質の音声を再構築することであり、この … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Spoken Language Intelligence of Large Language Models for Language Learning

投稿日: 2023年8月29日作成者: jarxiv

要約人々は長い間、実生活の状況を支援できる会話システムを望んできましたが、大規 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes

投稿日: 2023年8月28日作成者: jarxiv

要約我々は、AudioFormer という名前のメソッドを提案します。このメソ … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

How to Estimate Model Transferability of Pre-Trained Speech Models?

投稿日: 2023年8月28日作成者: jarxiv

要約この研究では、ターゲットタスクを微調整するための事前トレーニング済み音声 … 続きを読む →

カテゴリー: cs.CL, cs.NE, cs.SD, eess.AS | コメントを受け付けていません

CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds

投稿日: 2023年8月28日作成者: jarxiv

要約この論文では、幼児の泣き声のラベル付きコレクションである Ubenwa C … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Exploiting Diverse Feature for Multimodal Sentiment Analysis

投稿日: 2023年8月28日作成者: jarxiv

要約このペーパーでは、MuSe 2023 マルチモーダル感情分析チャレンジの … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Towards Automated Animal Density Estimation with Acoustic Spatial Capture-Recapture

投稿日: 2023年8月25日作成者: jarxiv

要約受動的音響モニタリングは、音響的には活動的だが視覚的に調査するのが難しい野 … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS, stat.ME | コメントを受け付けていません

MultiPA: a multi-task speech pronunciation assessment system for a closed and open response scenario

投稿日: 2023年8月25日作成者: jarxiv

要約自動音声発音評価の設計は、クローズド応答シナリオとオープン応答シナリオに分 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Real-time Detection of AI-Generated Speech for DeepFake Voice Conversion

投稿日: 2023年8月25日作成者: jarxiv

要約音声のクローン作成や、ある個人から別の個人へのリアルタイムの音声変換を可能 … 続きを読む →

カテゴリー: cs.CL, cs.HC, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

OLISIA: a Cascade System for Spoken Dialogue State Tracking

Let There Be Sound: Reconstructing High Quality Speech from Silent Videos

Spoken Language Intelligence of Large Language Models for Language Learning

AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes

How to Estimate Model Transferability of Pre-Trained Speech Models?

CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds

Exploiting Diverse Feature for Multimodal Sentiment Analysis

Towards Automated Animal Density Estimation with Acoustic Spatial Capture-Recapture

MultiPA: a multi-task speech pronunciation assessment system for a closed and open response scenario

Real-time Detection of AI-Generated Speech for DeepFake Voice Conversion

最近の投稿

最近のコメント

アーカイブ

カテゴリー