-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
Detection and classification of vocal productions in large scale audio recordings
要約 私たちは、大規模な自然音声録音から音声作品を抽出し、これらの音声作品を分類 … 続きを読む
There is more than one kind of robustness: Fooling Whisper with adversarial examples
要約 Whisper は、分布外の入力とランダム ノイズの両方に対して優れた堅牢 … 続きを読む
A Compact End-to-End Model with Local and Global Context for Spoken Language Identification
要約 ContextNet アーキテクチャに基づいた音声言語識別 (LID) 用 … 続きを読む
Lip2Vec: Efficient and Robust Visual Speech Recognition via Latent-to-Latent Visual to Audio Representation Mapping
要約 視覚音声認識 (VSR) は、人間の専門家であっても、ビデオ シーケンスに … 続きを読む
ML-SUPERB: Multilingual Speech Universal PERformance Benchmark
要約 音声処理ユニバーサル パフォーマンス ベンチマーク (SUPERB) は、 … 続きを読む
An Autoethnographic Exploration of XAI in Algorithmic Composition
要約 機械学習モデルは、民族音楽からクラシック音楽まで、さまざまなジャンルにわた … 続きを読む
Improving Joint Speech-Text Representations Without Alignment
要約 昨年は、テキストと画像のドメインが一緒に表現されるクロスモーダル表現空間の … 続きを読む
Deep Learning for Diverse Data Types Steganalysis: A Review
要約 ステガノグラフィーとステガナリシスは、情報セキュリティ分野の 2 つの相互 … 続きを読む
A Novel Self-training Approach for Low-resource Speech Recognition
要約 この論文では、低リソース設定における自動音声認識 (ASR) の自己学習ア … 続きを読む