eess.AS」カテゴリーアーカイブ

Visually grounded few-shot word learning in low-resource settings

要約 我々は、ほんの数個の単語と画像の例のペアから新しい単語とその視覚的描写を学 … 続きを読む

カテゴリー: cs.CL, eess.AS | Visually grounded few-shot word learning in low-resource settings はコメントを受け付けていません

Timestamped Embedding-Matching Acoustic-to-Word CTC ASR

要約 この研究では、多くの実世界のアプリケーションで必要とされる単語の開始時刻と … 続きを読む

カテゴリー: cs.CL, eess.AS | Timestamped Embedding-Matching Acoustic-to-Word CTC ASR はコメントを受け付けていません

Recent Advances in Direct Speech-to-text Translation

要約 最近、音声からテキストへの翻訳がますます注目を集めており、多くの研究が急速 … 続きを読む

カテゴリー: cs.CL, eess.AS | Recent Advances in Direct Speech-to-text Translation はコメントを受け付けていません

Align, Adapt and Inject: Sound-guided Unified Image Generation

要約 テキストガイドによる画像生成は、拡散モデルの開発により前例のない進歩を遂げ … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.SD, eess.AS | Align, Adapt and Inject: Sound-guided Unified Image Generation はコメントを受け付けていません

Correlation Clustering of Bird Sounds

要約 鳥の鳴き声の分類は、あらゆる音声記録を、その記録で聞こえる鳥の種類に関連付 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Correlation Clustering of Bird Sounds はコメントを受け付けていません

SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding Tasks

要約 音声言語理解 (SLU) タスクは、音声研究コミュニティで何十年も研究され … 続きを読む

カテゴリー: cs.CL, eess.AS | SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding Tasks はコメントを受け付けていません

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition

要約 対照学習ベースの事前トレーニング方法は、最近、さまざまな分野で目覚ましい成 … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition はコメントを受け付けていません

Investigating the Utility of Surprisal from Large Language Models for Speech Synthesis Prosody

要約 この論文では、音声合成韻律を支援する機能として、特定の文脈における単語の予 … 続きを読む

カテゴリー: cs.CL, eess.AS | Investigating the Utility of Surprisal from Large Language Models for Speech Synthesis Prosody はコメントを受け付けていません

On Data Sampling Strategies for Training Neural Network Speech Separation Models

要約 音声分離は依然としてマルチスピーカー信号処理の重要な領域です。 ディープ … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.NE, cs.SD, eess.AS | On Data Sampling Strategies for Training Neural Network Speech Separation Models はコメントを受け付けていません

Evaluation of Speech Representations for MOS prediction

要約 この論文では、音声品質を予測するための特徴抽出モデルを評価します。 また、 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Evaluation of Speech Representations for MOS prediction はコメントを受け付けていません