-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
The Edinburgh International Accents of English Corpus: Towards the Democratization of English ASR
要約 タイトル:The Edinburgh International Acce … 続きを読む
Towards Unconstrained Audio Splicing Detection and Localization with Neural Networks
要約 タイトル:ニューラルネットワークを用いた自由な音声スプライスの検出と位置特 … 続きを読む
An efficient encoder-decoder architecture with top-down attention for speech separation
要約 タイトル: 階層的アテンションを用いた効率的なエンコーダーデコーダーアーキ … 続きを読む
Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition
要約 変圧器は最近、ASR 分野を支配しています。 優れたパフォーマンスを実現で … 続きを読む
WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research
要約 オーディオ言語 (AL) マルチモーダル学習タスクの進歩は、近年重要です。 … 続きを読む
SynthVSR: Scaling Up Visual Speech Recognition With Synthetic Supervision
要約 最近報告された視覚的音声認識 (VSR) の最先端の結果は、ますます大量の … 続きを読む
Effective Audio Classification Network Based on Paired Inverse Pyramid Structure and Dense MLP Block
要約 最近では、畳み込みニューラル ネットワーク (CNN) と自己注意メカニズ … 続きを読む
Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment
要約 オーディオは私たちの周りの世界をどのように説明しますか? 本論文では,音か … 続きを読む
Hindi as a Second Language: Improving Visually Grounded Speech with Semantically Similar Samples
要約 この作業の目的は、多言語の観点から視覚的に接地された音声モデル (VGS) … 続きを読む