-
最近の投稿
- Multimodal Active Measurement for Human Mesh Recovery in Close Proximity
- An Algorithm for Distributed Computation of Reachable Sets for Multi-Agent Systems
- Meta-Learning Augmented MPC for Disturbance-Aware Motion Planning and Control of Quadrotors
- Solving Multi-Goal Robotic Tasks with Decision Transformer
- Context-Aware Command Understanding for Tabletop Scenarios
-
最近のコメント
表示できるコメントはありません。 cs.AI (27848) cs.CL (21045) cs.CR (2180) cs.CV (34554) cs.LG (32592) cs.RO (15968) cs.SY (2478) eess.IV (4238) eess.SY (2472) stat.ML (4364)
「eess.AS」カテゴリーアーカイブ
uaMix-MAE: Efficient Tuning of Pretrained Audio Transformers with Unsupervised Audio Mixtures
要約 マスクされたオートエンコーダー (MAE) は、ラベルのないデータから豊富 … 続きを読む
Mixture of Mixups for Multi-label Classification of Rare Anuran Sounds
要約 マルチラベルの不均衡な分類は、機械学習において重大な課題を引き起こします。 … 続きを読む
More than words: Advancements and challenges in speech recognition for singing
要約 この論文では、標準の音声認識とは明らかに異なる領域である、歌うための音声認 … 続きを読む
M&M: Multimodal-Multitask Model Integrating Audiovisual Cues in Cognitive Load Assessment
要約 この論文では、認知負荷評価 (CLA) 用の AVCAffe データセット … 続きを読む
Non-verbal information in spontaneous speech — towards a new framework of analysis
要約 音声内の非言語信号は韻律によってエンコードされ、会話の動作から態度、感情に … 続きを読む
Improving Acoustic Word Embeddings through Correspondence Training of Self-supervised Speech Representations
要約 音響単語埋め込み (AWE) は、話し言葉のベクトル表現です。 AWE を … 続きを読む
StoRM: A Diffusion-based Stochastic Regeneration Model for Speech Enhancement and Dereverberation
要約 拡散モデルは、音声強調に対する予測アプローチと生成アプローチの間のパフォー … 続きを読む
Beyond the Labels: Unveiling Text-Dependency in Paralinguistic Speech Recognition Datasets
要約 認知負荷や感情などのパラ言語特性は、音声認識研究において極めて重要な領域と … 続きを読む
Boosting keyword spotting through on-device learnable user speech characteristics
要約 常時稼働の TinyML 制約のあるアプリケーション用のキーワード スポッ … 続きを読む
An Audio-textual Diffusion Model For Converting Speech Signals Into Ultrasound Tongue Imaging Data
要約 音響-調音反転 (AAI) は、音声を超音波舌画像 (UTI) データなど … 続きを読む