-
最近の投稿
- Knowledge Transfer from Simple to Complex: A Safe and Efficient Reinforcement Learning Framework for Autonomous Driving Decision-Making
- Comparing Differentiable and Dynamic Ray Tracing: Introducing the Multipath Lifetime Map
- Trust or Bust: Ensuring Trustworthiness in Autonomous Weapon Systems
- Toward Generalizing Visual Brain Decoding to Unseen Subjects
- Open-Structure: Structural Benchmark Dataset for SLAM Algorithms
-
最近のコメント
表示できるコメントはありません。 cs.AI (28340) cs.CL (21411) cs.CR (2212) cs.CV (34971) cs.LG (33083) cs.RO (16322) cs.SY (2507) eess.IV (4260) eess.SY (2501) stat.ML (4433)
「eess.AS」カテゴリーアーカイブ
Word Discovery in Visually Grounded, Self-Supervised Speech Models
要約 視覚に基づいた話し言葉の発見方法を紹介します。 HuBERT または wa … 続きを読む
Multi-pass Training and Cross-information Fusion for Low-resource End-to-end Accented Speech Recognition
要約 低リソースのアクセント音声認識は、実際のアプリケーションにおいて現在の A … 続きを読む
Visually grounded few-shot word learning in low-resource settings
要約 我々は、ほんの数個の単語と画像の例のペアから新しい単語とその視覚的描写を学 … 続きを読む
Timestamped Embedding-Matching Acoustic-to-Word CTC ASR
要約 この研究では、多くの実世界のアプリケーションで必要とされる単語の開始時刻と … 続きを読む
Recent Advances in Direct Speech-to-text Translation
要約 最近、音声からテキストへの翻訳がますます注目を集めており、多くの研究が急速 … 続きを読む
Align, Adapt and Inject: Sound-guided Unified Image Generation
要約 テキストガイドによる画像生成は、拡散モデルの開発により前例のない進歩を遂げ … 続きを読む
Correlation Clustering of Bird Sounds
要約 鳥の鳴き声の分類は、あらゆる音声記録を、その記録で聞こえる鳥の種類に関連付 … 続きを読む
SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding Tasks
要約 音声言語理解 (SLU) タスクは、音声研究コミュニティで何十年も研究され … 続きを読む
GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition
要約 対照学習ベースの事前トレーニング方法は、最近、さまざまな分野で目覚ましい成 … 続きを読む
Investigating the Utility of Surprisal from Large Language Models for Speech Synthesis Prosody
要約 この論文では、音声合成韻律を支援する機能として、特定の文脈における単語の予 … 続きを読む