-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Towards Unconstrained Audio Splicing Detection and Localization with Neural Networks
要約 タイトル:ニューラルネットワークを用いた自由な音声スプライスの検出と位置特 … 続きを読む
An efficient encoder-decoder architecture with top-down attention for speech separation
要約 タイトル: 階層的アテンションを用いた効率的なエンコーダーデコーダーアーキ … 続きを読む
Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition
要約 変圧器は最近、ASR 分野を支配しています。 優れたパフォーマンスを実現で … 続きを読む
WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research
要約 オーディオ言語 (AL) マルチモーダル学習タスクの進歩は、近年重要です。 … 続きを読む
SynthVSR: Scaling Up Visual Speech Recognition With Synthetic Supervision
要約 最近報告された視覚的音声認識 (VSR) の最先端の結果は、ますます大量の … 続きを読む
Effective Audio Classification Network Based on Paired Inverse Pyramid Structure and Dense MLP Block
要約 最近では、畳み込みニューラル ネットワーク (CNN) と自己注意メカニズ … 続きを読む
Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment
要約 オーディオは私たちの周りの世界をどのように説明しますか? 本論文では,音か … 続きを読む
Hindi as a Second Language: Improving Visually Grounded Speech with Semantically Similar Samples
要約 この作業の目的は、多言語の観点から視覚的に接地された音声モデル (VGS) … 続きを読む
Context-aware Fine-tuning of Self-supervised Speech Models
要約 自己監視型の事前トレーニング済みトランスフォーマーは、さまざまな音声タスク … 続きを読む