-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
MarginNCE: Robust Sound Localization with a Negative Margin
要約 本研究の目的は、自己教師付きアプローチにより、視覚的シーンにおける音源の位 … 続きを読む
No-audio speaking status detection in crowded settings via visual pose-based filtering and wearable acceleration
要約 混雑したシーンで誰が話しているかを認識することは、内部で行われている社会的 … 続きを読む
Combining Automatic Speaker Verification and Prosody Analysis for Synthetic Speech Detection
要約 メディア コンテンツ合成技術の急速な普及と、オーディオとビデオのディープフ … 続きを読む
Multimodal Exponentially Modified Gaussian Oscillators
要約 音響モデリングは、ノイズ除去、データ再構築、モデルベースのテスト、分類など … 続きを読む
カテゴリー: cs.CV, cs.SD, eess.AS, physics.app-ph
Multimodal Exponentially Modified Gaussian Oscillators はコメントを受け付けていません
Multimodal Transformer Distillation for Audio-Visual Synchronization
要約 視聴覚同期は、ビデオ内の口の動きと音声が同期しているかどうかを判断すること … 続きを読む
Masked Modeling Duo: Learning Representations by Encouraging Both Networks to Model the Input
要約 Masked Autoencoders は、シンプルでありながら強力な自己 … 続きを読む
OWL (Observe, Watch, Listen): Audiovisual Temporal Context for Localizing Actions in Egocentric Videos
要約 自己中心的なビデオは、一人称視点から人間の活動のシーケンスをキャプチャし、 … 続きを読む
Learning Audio-Visual embedding for Person Verification in the Wild
要約 オーディオビジュアルの埋め込みは、個人の検証において単一モダリティの埋め込 … 続きを読む
Play It Back: Iterative Attention for Audio Recognition
要約 聴覚認知の重要な機能は、特徴的な音とそれに対応するセマンティクスを経時的に … 続きを読む
Intel Labs at Ego4D Challenge 2022: A Better Baseline for Audio-Visual Diarization
要約 このレポートでは、Ego4D チャレンジ 2022 のオーディオ ビジュア … 続きを読む