- 
最近の投稿- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
 
- 
最近のコメント表示できるコメントはありません。
- cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830) 
「eess.AS」カテゴリーアーカイブ
BLSTM-Based Confidence Estimation for End-to-End Speech Recognition
要約 自動音声認識 (ASR) 仮説において認識された各トークン (単語、サブワ … 続きを読む
Creating New Voices using Normalizing Flows
要約 トレーニング中に目に見えない音声アイデンティティにとって、リアルで自然な響 … 続きを読む
Unsupervised Melody-to-Lyric Generation
要約 メロディーから歌詞への自動生成は、指定されたメロディーに合わせて歌詞を生成 … 続きを読む
UnIVAL: Unified Model for Image, Video, Audio and Language Tasks
要約 大規模言語モデル (LLM) により、ゼネラリスト エージェントの野心的な … 続きを読む
BANSpEmo: A Bangla Emotional Speech Recognition Dataset
要約 音声および音声分析の分野では、音響信号から感情を識別する機能が不可欠です。 … 続きを読む
Leveraging Visual Supervision for Array-based Active Speaker Detection and Localization
要約 アクティブ話者検出 (ASD) のための従来のオーディオビジュアル アプロ … 続きを読む
Speech Translation with Large Language Models: An Industrial Practice
要約 さまざまなタスクにわたる大規模言語モデル (LLM) が大きな成功を収めて … 続きを読む
Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models
要約 最近、指示に従う音声言語モデルが、人間との音声対話において広く注目を集めて … 続きを読む
EmphAssess : a Prosodic Benchmark on Assessing Emphasis Transfer in Speech-to-Speech Models
要約 韻律強調をエンコードして再現する音声合成モデルの機能を評価するために設計さ … 続きを読む
On the choice of the optimal temporal support for audio classification with Pre-trained embeddings
要約 現在の最先端のオーディオ分析システムは、事前にトレーニングされた埋め込みモ … 続きを読む
