cs.SD」カテゴリーアーカイブ

What You Hear Is What You See: Audio Quality Metrics From Image Quality Metrics

要約 この研究では、オーディオ信号をスペクトログラムとして表すことにより、オーデ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | What You Hear Is What You See: Audio Quality Metrics From Image Quality Metrics はコメントを受け付けていません

a unified front-end framework for english text-to-speech synthesis

要約 フロントエンドは英語音声合成 (TTS) システムの重要なコンポーネントで … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | a unified front-end framework for english text-to-speech synthesis はコメントを受け付けていません

Killing two birds with one stone: Can an audio captioning system also be used for audio-text retrieval?

要約 自動音声キャプション (AAC) は、テキスト文を使用して音声録音を説明で … 続きを読む

カテゴリー: cs.CL, cs.IR, cs.SD, eess.AS | Killing two birds with one stone: Can an audio captioning system also be used for audio-text retrieval? はコメントを受け付けていません

OLISIA: a Cascade System for Spoken Dialogue State Tracking

要約 Dialogue State Tracking (DST) は音声対話シス … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | OLISIA: a Cascade System for Spoken Dialogue State Tracking はコメントを受け付けていません

Let There Be Sound: Reconstructing High Quality Speech from Silent Videos

要約 この研究の目標は、唇の動きだけから高品質の音声を再構築することであり、この … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Let There Be Sound: Reconstructing High Quality Speech from Silent Videos はコメントを受け付けていません

Spoken Language Intelligence of Large Language Models for Language Learning

要約 人々は長い間、実生活の状況を支援できる会話システムを望んできましたが、大規 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | Spoken Language Intelligence of Large Language Models for Language Learning はコメントを受け付けていません

AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes

要約 我々は、AudioFormer という名前のメソッドを提案します。このメソ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes はコメントを受け付けていません

How to Estimate Model Transferability of Pre-Trained Speech Models?

要約 この研究では、ターゲット タスクを微調整するための事前トレーニング済み音声 … 続きを読む

カテゴリー: cs.CL, cs.NE, cs.SD, eess.AS | How to Estimate Model Transferability of Pre-Trained Speech Models? はコメントを受け付けていません

CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds

要約 この論文では、幼児の泣き声のラベル付きコレクションである Ubenwa C … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds はコメントを受け付けていません

Exploiting Diverse Feature for Multimodal Sentiment Analysis

要約 このペーパーでは、MuSe 2023 マルチモーダル感情分析チャレンジの … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Exploiting Diverse Feature for Multimodal Sentiment Analysis はコメントを受け付けていません