-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
A Suite for Acoustic Language Model Evaluation
要約 音声言語モデルは最近、汎用音声処理システムとして大きな可能性を示しています … 続きを読む
Continual Learning in Machine Speech Chain Using Gradient Episodic Memory
要約 自動音声認識 (ASR) システムの継続的な学習には、特に以前に学習したタ … 続きを読む
AMPS: ASR with Multimodal Paraphrase Supervision
要約 自発的または会話的な多言語音声は、最先端の自動音声認識 (ASR) システ … 続きを読む
Continuous Autoregressive Models with Noise Augmentation Avoid Error Accumulation
要約 自己回帰モデルは通常、離散トークンのシーケンスに適用されますが、最近の研究 … 続きを読む
Towards Maximum Likelihood Training for Transducer-based Streaming Speech Recognition
要約 トランスデューサー ニューラル ネットワークは、ストリーミング自動音声認識 … 続きを読む
Learning Spatially-Aware Language and Audio Embeddings
要約 人間は、不正確な自然言語記述が与えられたとしても、音のシーンを思い描くこと … 続きを読む
WavChat: A Survey of Spoken Dialogue Models
要約 GPT-4o などのシステムに代表される音声対話モデルの最近の進歩は、音声 … 続きを読む
The ParlaSpeech Collection of Automatically Generated Speech and Text Datasets from Parliamentary Proceedings
要約 音声および言語テクノロジにおける最近の大幅な改善は、生の言語データに対する … 続きを読む
Scaling Speech-Text Pre-training with Synthetic Interleaved Data
要約 音声言語モデル (SpeechLM) は、音声入力を受け入れて音声出力を生 … 続きを読む