eess.AS」カテゴリーアーカイブ

Word Discovery in Visually Grounded, Self-Supervised Speech Models

要約 視覚に基づいた話し言葉の発見方法を紹介します。 HuBERT または wa … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Word Discovery in Visually Grounded, Self-Supervised Speech Models はコメントを受け付けていません

Multi-pass Training and Cross-information Fusion for Low-resource End-to-end Accented Speech Recognition

要約 低リソースのアクセント音声認識は、実際のアプリケーションにおいて現在の A … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS, eess.SP | Multi-pass Training and Cross-information Fusion for Low-resource End-to-end Accented Speech Recognition はコメントを受け付けていません

Visually grounded few-shot word learning in low-resource settings

要約 我々は、ほんの数個の単語と画像の例のペアから新しい単語とその視覚的描写を学 … 続きを読む

カテゴリー: cs.CL, eess.AS | Visually grounded few-shot word learning in low-resource settings はコメントを受け付けていません

Timestamped Embedding-Matching Acoustic-to-Word CTC ASR

要約 この研究では、多くの実世界のアプリケーションで必要とされる単語の開始時刻と … 続きを読む

カテゴリー: cs.CL, eess.AS | Timestamped Embedding-Matching Acoustic-to-Word CTC ASR はコメントを受け付けていません

Recent Advances in Direct Speech-to-text Translation

要約 最近、音声からテキストへの翻訳がますます注目を集めており、多くの研究が急速 … 続きを読む

カテゴリー: cs.CL, eess.AS | Recent Advances in Direct Speech-to-text Translation はコメントを受け付けていません

Align, Adapt and Inject: Sound-guided Unified Image Generation

要約 テキストガイドによる画像生成は、拡散モデルの開発により前例のない進歩を遂げ … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.SD, eess.AS | Align, Adapt and Inject: Sound-guided Unified Image Generation はコメントを受け付けていません

Correlation Clustering of Bird Sounds

要約 鳥の鳴き声の分類は、あらゆる音声記録を、その記録で聞こえる鳥の種類に関連付 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Correlation Clustering of Bird Sounds はコメントを受け付けていません

SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding Tasks

要約 音声言語理解 (SLU) タスクは、音声研究コミュニティで何十年も研究され … 続きを読む

カテゴリー: cs.CL, eess.AS | SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding Tasks はコメントを受け付けていません

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition

要約 対照学習ベースの事前トレーニング方法は、最近、さまざまな分野で目覚ましい成 … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition はコメントを受け付けていません

Investigating the Utility of Surprisal from Large Language Models for Speech Synthesis Prosody

要約 この論文では、音声合成韻律を支援する機能として、特定の文脈における単語の予 … 続きを読む

カテゴリー: cs.CL, eess.AS | Investigating the Utility of Surprisal from Large Language Models for Speech Synthesis Prosody はコメントを受け付けていません