-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Vulnerability of Automatic Identity Recognition to Audio-Visual Deepfakes
要約 ディープフェイク検出の課題は、音声や視覚の研究者によって解決されるには程遠 … 続きを読む
StyleCap: Automatic Speaking-Style Captioning from Speech Based on Speech and Language Self-supervised Learning Models
要約 我々は、音声に現れる話し方の自然言語記述を生成する手法、StyleCap … 続きを読む
TODM: Train Once Deploy Many Efficient Supernet-Based RNN-T Compression For On-device ASR Models
要約 自動音声認識 (ASR) モデルは、デバイスに展開する前に、特定のハードウ … 続きを読む
A Quantitative Approach to Understand Self-Supervised Models as Cross-lingual Feature Extractors
要約 この研究では、言語を超えたコンテキストで英語の自己教師あり学習 (SSL) … 続きを読む
CheapNET: Improving Light-weight speech enhancement network by projected loss function
要約 ノイズ抑制とエコー キャンセルは音声強調において重要であり、スマート デバ … 続きを読む
SER_AMPEL: A multi-source dataset for SER of Italian older adults
要約 この論文では、音声感情認識 (SER) 用のマルチソース データセットであ … 続きを読む
tinyCLAP: Distilling Constrastive Language-Audio Pretrained Models
要約 Contrastive Language-Audio Pretrainin … 続きを読む
GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Accurate Speech Emotion Recognition
要約 対照的クロスモダリティ事前トレーニングは、最近さまざまな分野で目覚ましい成 … 続きを読む
The effect of speech pathology on automatic speaker verification — a large-scale study
要約 データ駆動型音声処理の課題を乗り越える際の主なハードルの 1 つは、信頼で … 続きを読む
Audio classification with Dilated Convolution with Learnable Spacings
要約 学習可能な間隔を備えた拡張畳み込み (DCLS) は、バックプロパゲーショ … 続きを読む