-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
LAST: Language Model Aware Speech Tokenization
要約 音声トークン化は音声言語モデル (LM) の基礎として機能し、音声言語モデ … 続きを読む
Raw Speech Enhancement with Deep State Space Modeling
要約 エンドツーエンド方式でオンラインの生の音声を効率的に強化するために構成され … 続きを読む
Temporal Order Preserved Optimal Transport-based Cross-modal Knowledge Transfer Learning for ASR
要約 言語知識を事前学習済み言語モデル (PLM) から音響モデルに転送すると、 … 続きを読む
Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Cord Paralysis
要約 この論文では、音声データとビデオ データを組み合わせて、臨床評価のために喉 … 続きを読む
Serialized Speech Information Guidance with Overlapped Encoding Separation for Multi-Speaker Automatic Speech Recognition
要約 シリアル化出力トレーニング (SOT) は、マルチ話者の自動音声認識 (A … 続きを読む
Segment Beyond View: Handling Partially Missing Modality for Audio-Visual Semantic Segmentation
要約 拡張現実 (AR) デバイスは、著名なモバイル インタラクション プラット … 続きを読む
An Analysis of Linear Complexity Attention Substitutes with BEST-RQ
要約 自己教師あり学習 (SSL) は、音声処理を含むさまざまな分野で効果的であ … 続きを読む
Towards a Universal Method for Meaningful Signal Detection
要約 人間の発話や特定の動物の鳴き声は、特定の発話が伝える内容を解読できるため、 … 続きを読む
AudioBench: A Universal Benchmark for Audio Large Language Models
要約 Audio Large Language Models (AudioLLM … 続きを読む