-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Oracle Teacher: Leveraging Target Information for Better Knowledge Distillation of CTC Models
要約 知識蒸留 (KD) は、モデル圧縮の効果的な方法として最もよく知られており … 続きを読む
Detection and classification of vocal productions in large scale audio recordings
要約 私たちは、大規模な自然音声録音から音声作品を抽出し、これらの音声作品を分類 … 続きを読む
There is more than one kind of robustness: Fooling Whisper with adversarial examples
要約 Whisper は、分布外の入力とランダム ノイズの両方に対して優れた堅牢 … 続きを読む
A Compact End-to-End Model with Local and Global Context for Spoken Language Identification
要約 ContextNet アーキテクチャに基づいた音声言語識別 (LID) 用 … 続きを読む
Lip2Vec: Efficient and Robust Visual Speech Recognition via Latent-to-Latent Visual to Audio Representation Mapping
要約 視覚音声認識 (VSR) は、人間の専門家であっても、ビデオ シーケンスに … 続きを読む
ML-SUPERB: Multilingual Speech Universal PERformance Benchmark
要約 音声処理ユニバーサル パフォーマンス ベンチマーク (SUPERB) は、 … 続きを読む
Improving Joint Speech-Text Representations Without Alignment
要約 昨年は、テキストと画像のドメインが一緒に表現されるクロスモーダル表現空間の … 続きを読む
Deep Learning for Diverse Data Types Steganalysis: A Review
要約 ステガノグラフィーとステガナリシスは、情報セキュリティ分野の 2 つの相互 … 続きを読む
A Novel Self-training Approach for Low-resource Speech Recognition
要約 この論文では、低リソース設定における自動音声認識 (ASR) の自己学習ア … 続きを読む