-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Improving the Inclusivity of Dutch Speech Recognition by Fine-tuning Whisper on the JASMIN-CGN Corpus
要約 ジャスミンCGNコーパスの子供、高齢者、非ネイティブオランダ語のスピーチに … 続きを読む
ML-SUPERB: Multilingual Speech Universal PERformance Benchmark
要約 音声処理Universal Performance Benchmark(S … 続きを読む
Findings of the 2023 ML-SUPERB Challenge: Pre-Training and Evaluation over More Languages and Beyond
要約 2023年の多言語スピーチユニバーサルパフォーマンスベンチマーク(ML-S … 続きを読む
Zero-shot Musical Stem Retrieval with Joint-Embedding Predictive Architectures
要約 この論文では、音楽のSTEMの回復のタスクに取り組みます。 ミュージカルミ … 続きを読む
Low-Rank and Sparse Model Merging for Multi-Lingual Speech Recognition and Translation
要約 言語の多様性は、自動音声認識や翻訳など、音声からテキスト(S2T)タスクに … 続きを読む
Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors
要約 Vibravoxは、5つの異なる体伝導オーディオセンサーを使用したオーディ … 続きを読む
Reverb: Open-Source ASR and Diarization from Rev
要約 今日、私たちは非営利的な使用のためのコア音声認識とダイアリ化化モデルをオー … 続きを読む
Everyday Speech in the Indian Subcontinent
要約 インドには1369の言語があり、そのうち22は公式です。 これらの言語を表 … 続きを読む
KAD: No More FAD! An Effective and Efficient Evaluation Metric for Audio Generation
要約 生成されたオーディオ信号の評価に広く採用されていますが、FR \ R … 続きを読む
WavRAG: Audio-Integrated Retrieval Augmented Generation for Spoken Dialogue Models
要約 検索拡張生成(RAG)は、大規模な言語モデル(LLM)に外部知識を統合でき … 続きを読む