-
最近の投稿
- Physical Reservoir Computing in Hook-Shaped Rover Wheel Spokes for Real-Time Terrain Identification
- Chain-of-Modality: Learning Manipulation Programs from Multimodal Human Videos with Vision-Language-Models
- Multi-Sensor Fusion-Based Mobile Manipulator Remote Control for Intelligent Smart Home Assistance
- Integration of a Graph-Based Path Planner and Mixed-Integer MPC for Robot Navigation in Cluttered Environments
- Demonstrating CavePI: Autonomous Exploration of Underwater Caves by Semantic Guidance
-
最近のコメント
表示できるコメントはありません。 cs.AI (36829) cs.CL (27883) cs.CV (42623) cs.HC (2814) cs.LG (41781) cs.RO (21795) cs.SY (3320) eess.IV (4979) eess.SY (3312) stat.ML (5469)
「cs.SD」カテゴリーアーカイブ
ML-SUPERB: Multilingual Speech Universal PERformance Benchmark
要約 音声処理Universal Performance Benchmark(S … 続きを読む
Findings of the 2023 ML-SUPERB Challenge: Pre-Training and Evaluation over More Languages and Beyond
要約 2023年の多言語スピーチユニバーサルパフォーマンスベンチマーク(ML-S … 続きを読む
Zero-shot Musical Stem Retrieval with Joint-Embedding Predictive Architectures
要約 この論文では、音楽のSTEMの回復のタスクに取り組みます。 ミュージカルミ … 続きを読む
Low-Rank and Sparse Model Merging for Multi-Lingual Speech Recognition and Translation
要約 言語の多様性は、自動音声認識や翻訳など、音声からテキスト(S2T)タスクに … 続きを読む
Reverb: Open-Source ASR and Diarization from Rev
要約 今日、私たちは非営利的な使用のためのコア音声認識とダイアリ化化モデルをオー … 続きを読む
Everyday Speech in the Indian Subcontinent
要約 インドには1369の言語があり、そのうち22は公式です。 これらの言語を表 … 続きを読む
KAD: No More FAD! An Effective and Efficient Evaluation Metric for Audio Generation
要約 生成されたオーディオ信号の評価に広く採用されていますが、FR \ R … 続きを読む
WavRAG: Audio-Integrated Retrieval Augmented Generation for Spoken Dialogue Models
要約 検索拡張生成(RAG)は、大規模な言語モデル(LLM)に外部知識を統合でき … 続きを読む
Rethinking Audio-Visual Adversarial Vulnerability from Temporal and Modality Perspectives
要約 視聴覚学習は、複数の感覚モダリティを活用することにより、現実の世界をより豊 … 続きを読む