-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
Benchmarking Machine Learning Methods for Distributed Acoustic Sensing
要約 分散音響センシング(DAS)テクノロジーは、光ファイバーに沿った微小摂動の … 続きを読む
Zero-Shot Audio-Visual Editing via Cross-Modal Delta Denoising
要約 このペーパーでは、ゼロショットオーディオビデオ編集を紹介します。これは、追 … 続きを読む
Deep Learning for Speech Emotion Recognition: A CNN Approach Utilizing Mel Spectrograms
要約 このペーパーでは、オーディオファイルのMELスペクトログラム表現を介して音 … 続きを読む
Seeing Speech and Sound: Distinguishing and Locating Audios in Visual Scenes
要約 視覚シーン内の音声言語と非スピーチの両方の音の両方を同時に接地できる統合モ … 続きを読む
United we stand, Divided we fall: Handling Weak Complementary Relationships for Audio-Visual Emotion Recognition in Valence-Arousal Space
要約 オーディオとビジュアルモダリティは、ビデオの2つの主要な接触チャネルであり … 続きを読む
Align Your Rhythm: Generating Highly Aligned Dance Poses with Gating-Enhanced Rhythm-Aware Feature Representation
要約 音楽によって駆動される自然で多様でリズミカルな人間のダンスの動きを自動的に … 続きを読む
Structured-Noise Masked Modeling for Video, Audio and Beyond
要約 マスクされたモデリングは強力な自己監視学習フレームワークとして浮上していま … 続きを読む
UniSync: A Unified Framework for Audio-Visual Synchronization
要約 スピーチビデオの正確な視聴覚同期は、コンテンツの品質と視聴者の理解に不可欠 … 続きを読む
Evaluating ASR Confidence Scores for Automated Error Detection in User-Assisted Correction Interfaces
要約 自動音声認識(ASR)の進歩にもかかわらず、転写エラーは持続し、手動修正が … 続きを読む
Solla: Towards a Speech-Oriented LLM That Hears Acoustic Context
要約 大規模な言語モデル(LLM)は最近、テキストだけでなく、音声やオーディオな … 続きを読む