-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Visually grounded few-shot word learning in low-resource settings
要約 我々は、ほんの数個の単語と画像の例のペアから新しい単語とその視覚的描写を学 … 続きを読む
Timestamped Embedding-Matching Acoustic-to-Word CTC ASR
要約 この研究では、多くの実世界のアプリケーションで必要とされる単語の開始時刻と … 続きを読む
Recent Advances in Direct Speech-to-text Translation
要約 最近、音声からテキストへの翻訳がますます注目を集めており、多くの研究が急速 … 続きを読む
Align, Adapt and Inject: Sound-guided Unified Image Generation
要約 テキストガイドによる画像生成は、拡散モデルの開発により前例のない進歩を遂げ … 続きを読む
Correlation Clustering of Bird Sounds
要約 鳥の鳴き声の分類は、あらゆる音声記録を、その記録で聞こえる鳥の種類に関連付 … 続きを読む
SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding Tasks
要約 音声言語理解 (SLU) タスクは、音声研究コミュニティで何十年も研究され … 続きを読む
GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition
要約 対照学習ベースの事前トレーニング方法は、最近、さまざまな分野で目覚ましい成 … 続きを読む
Investigating the Utility of Surprisal from Large Language Models for Speech Synthesis Prosody
要約 この論文では、音声合成韻律を支援する機能として、特定の文脈における単語の予 … 続きを読む
On Data Sampling Strategies for Training Neural Network Speech Separation Models
要約 音声分離は依然としてマルチスピーカー信号処理の重要な領域です。 ディープ … 続きを読む
Evaluation of Speech Representations for MOS prediction
要約 この論文では、音声品質を予測するための特徴抽出モデルを評価します。 また、 … 続きを読む