-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Attention-Based Recurrent Neural Network For Automatic Behavior Laying Hen Recognition
要約 現代の養鶏の関心の 1 つは、健康行動に関する非常に有益な情報を含む産卵鶏 … 続きを読む
ICMC-ASR: The ICASSP 2024 In-Car Multi-Channel Automatic Speech Recognition Challenge
要約 運転シナリオにおける音声処理と認識の研究を促進するために、私たちは ISC … 続きを読む
FreGrad: Lightweight and Fast Frequency-aware Diffusion Vocoder
要約 この論文の目標は、FreGrad という軽量で高速な拡散ベースのボコーダー … 続きを読む
RTFS-Net: Recurrent time-frequency modelling for efficient audio-visual speech separation
要約 視聴覚音声分離手法は、さまざまなモダリティを統合して高品質の分離音声を生成 … 続きを読む
Using i-vectors for subject-independent cross-session EEG transfer learning
要約 認知負荷分類は、脳波検査 (EEG) などの生理学的測定に基づいて、タスク … 続きを読む
NOTSOFAR-1 Challenge: New Datasets, Baseline, and Tasks for Distant Meeting Transcription
要約 データセットとベースライン システムとともに、遠距離音声録音 (「NOTS … 続きを読む
Efficient Adapter Finetuning for Tail Languages in Streaming Multilingual ASR
要約 エンドツーエンドの ASR モデルは、展開が容易であり、強力な基盤モデルな … 続きを読む
Multilingual DistilWhisper: Efficient Distillation of Multi-task Speech Models via Language-Specific Experts
要約 Whisper は、99 言語をカバーするマルチタスクおよび多言語音声モデ … 続きを読む
SummaryMixing: A Linear-Complexity Alternative to Self-Attention for Speech Recognition and Understanding
要約 現代の音声処理システムは自己注意に依存しています。 残念ながら、自己注意を … 続きを読む
Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue
要約 大規模言語モデル (LLM) は、チャット、推論、質問応答などのタスクにお … 続きを読む