-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos
要約 人間のインタラクション用にリアルなオーディオを生成することは、映画や仮想現 … 続きを読む
Talk With Human-like Agents: Empathetic Dialogue Through Perceptible Acoustic Reception and Reaction
要約 大規模言語モデル (LLM) で強化されたエージェントは、人間と AI の … 続きを読む
1000 African Voices: Advancing inclusive multi-speaker multi-accent speech synthesis
要約 音声合成の最近の進歩により、Google マップの音声案内、スクリーン リ … 続きを読む
BirdSet: A Dataset and Benchmark for Classification in Avian Bioacoustics
要約 ディープラーニング (DL) モデルは、環境の健全性を評価するための鳥類の … 続きを読む
GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities
要約 非音声音と非言語音声を知覚して理解することは、周囲と対話するのに役立つ意思 … 続きを読む
Diffusion Synthesizer for Efficient Multilingual Speech to Speech Translation
要約 DiffuseST は、複数のソース言語から英語に翻訳しながら、入力話者の … 続きを読む
An efficient text augmentation approach for contextualized Mandarin speech recognition
要約 文脈に応じた自動音声認識 (ASR) システムは、一般的ではない単語の認識 … 続きを読む
Simul-Whisper: Attention-Guided Streaming Whisper with Truncation Detection
要約 Whisper は、堅牢かつ大規模な多言語音声認識モデルとして、多くの低リ … 続きを読む
Detecting the terminality of speech-turn boundary for spoken interactions in French TV and Radio content
要約 トランジション関連性 場所は、対話者が現在の話者の話を遮ることなく発言でき … 続きを読む
On the Evaluation of Speech Foundation Models for Spoken Language Understanding
要約 音声言語理解評価 (SLUE) ベンチマーク タスク スイートは、自然音声 … 続きを読む