-
最近の投稿
- BlabberSeg: Real-Time Embedded Open-Vocabulary Aerial Segmentation
- Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks
- Risk Assessment for Autonomous Landing in Urban Environments using Semantic Segmentation
- Configurable Embodied Data Generation for Class-Agnostic RGB-D Video Segmentation
- RPCBF: Constructing Safety Filters Robust to Model Error and Disturbances via Policy Control Barrier Functions
-
最近のコメント
表示できるコメントはありません。 cs.AI (28260) cs.CL (21356) cs.CR (2207) cs.CV (34912) cs.LG (33009) cs.RO (16270) cs.SY (2503) eess.IV (4251) eess.SY (2497) stat.ML (4424)
「eess.AS」カテゴリーアーカイブ
Oracle Teacher: Leveraging Target Information for Better Knowledge Distillation of CTC Models
要約 知識蒸留 (KD) は、モデル圧縮の効果的な方法として最もよく知られており … 続きを読む
Detection and classification of vocal productions in large scale audio recordings
要約 私たちは、大規模な自然音声録音から音声作品を抽出し、これらの音声作品を分類 … 続きを読む
There is more than one kind of robustness: Fooling Whisper with adversarial examples
要約 Whisper は、分布外の入力とランダム ノイズの両方に対して優れた堅牢 … 続きを読む
A Compact End-to-End Model with Local and Global Context for Spoken Language Identification
要約 ContextNet アーキテクチャに基づいた音声言語識別 (LID) 用 … 続きを読む
Lip2Vec: Efficient and Robust Visual Speech Recognition via Latent-to-Latent Visual to Audio Representation Mapping
要約 視覚音声認識 (VSR) は、人間の専門家であっても、ビデオ シーケンスに … 続きを読む
ML-SUPERB: Multilingual Speech Universal PERformance Benchmark
要約 音声処理ユニバーサル パフォーマンス ベンチマーク (SUPERB) は、 … 続きを読む
Improving Joint Speech-Text Representations Without Alignment
要約 昨年は、テキストと画像のドメインが一緒に表現されるクロスモーダル表現空間の … 続きを読む
Deep Learning for Diverse Data Types Steganalysis: A Review
要約 ステガノグラフィーとステガナリシスは、情報セキュリティ分野の 2 つの相互 … 続きを読む
A Novel Self-training Approach for Low-resource Speech Recognition
要約 この論文では、低リソース設定における自動音声認識 (ASR) の自己学習ア … 続きを読む