-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
Talk With Human-like Agents: Empathetic Dialogue Through Perceptible Acoustic Reception and Reaction
要約 大規模言語モデル (LLM) で強化されたエージェントは、人間と AI の … 続きを読む
BirdSet: A Dataset and Benchmark for Classification in Avian Bioacoustics
要約 ディープラーニング (DL) モデルは、環境の健全性を評価するための鳥類の … 続きを読む
GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities
要約 非音声音と非言語音声を知覚して理解することは、周囲と対話するのに役立つ意思 … 続きを読む
Diffusion Synthesizer for Efficient Multilingual Speech to Speech Translation
要約 DiffuseST は、複数のソース言語から英語に翻訳しながら、入力話者の … 続きを読む
An efficient text augmentation approach for contextualized Mandarin speech recognition
要約 文脈に応じた自動音声認識 (ASR) システムは、一般的ではない単語の認識 … 続きを読む
Simul-Whisper: Attention-Guided Streaming Whisper with Truncation Detection
要約 Whisper は、堅牢かつ大規模な多言語音声認識モデルとして、多くの低リ … 続きを読む
Detecting the terminality of speech-turn boundary for spoken interactions in French TV and Radio content
要約 トランジション関連性 場所は、対話者が現在の話者の話を遮ることなく発言でき … 続きを読む
On the Evaluation of Speech Foundation Models for Spoken Language Understanding
要約 音声言語理解評価 (SLUE) ベンチマーク タスク スイートは、自然音声 … 続きを読む
One-pass Multiple Conformer and Foundation Speech Systems Compression and Quantization Using An All-in-one Neural Model
要約 オールインワンのニューラル モデルを使用した、新しいワンパス複数 ASR … 続きを読む
Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation
要約 Audio-Visual Speech Recognition (AVSR … 続きを読む