-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Estimating Visual Information From Audio Through Manifold Learning
要約 オーディオ信号のみを使用してシーンに関する視覚情報を抽出するための新しいフ … 続きを読む
Learning Audio-Visual embedding for Wild Person Verification
要約 これらの 2 つのモダリティからオーディオビジュアル埋め込みを抽出して、人 … 続きを読む
Video-Guided Curriculum Learning for Spoken Video Grounding
要約 このホワイト ペーパーでは、新しいタスクである音声ビデオ グラウンディング … 続きを読む
Lip-to-Speech Synthesis for Arbitrary Speakers in the Wild
要約 この作業では、野生の任意の話者のサイレント リップ ビデオから音声を生成す … 続きを読む
Late multimodal fusion for image and audio music transcription
要約 音楽ソースを構造化されたデジタル形式に変換する音楽のトランスクリプションは … 続きを読む
Catch Me If You Hear Me: Audio-Visual Navigation in Complex Unmapped Environments with Moving Sounds
要約 視聴覚ナビゲーションは、視覚と聴覚を組み合わせて、マッピングされていない環 … 続きを読む
Interpretable Multimodal Emotion Recognition using Hybrid Fusion of Speech and Image Data
要約 本稿では、音声発話と対応する画像によって表される感情を離散クラスに分類する … 続きを読む
In-Air Imaging Sonar Sensor Network with Real-Time Processing Using GPUs
要約 自律航法やロボットへの応用では、環境を正しく感知することが重要です。 この … 続きを読む
StyleTalker: One-shot Style-based Audio-driven Talking Head Video Generation
要約 StyleTalker は、正確にオーディオ同期された唇の形、リアルな頭の … 続きを読む