-
最近の投稿
- Bayesian optimization for robust robotic grasping using a sensorized compliant hand
- Lessons from Learning to Spin ‘Pens’
- Uncertainty-Aware Planning for Heterogeneous Robot Teams using Dynamic Topological Graphs and Mixed-Integer Programming
- Screw Geometry Meets Bandits: Incremental Acquisition of Demonstrations to Generate Manipulation Plans
- Search-Based Path Planning among Movable Obstacles
-
最近のコメント
表示できるコメントはありません。 cs.AI (28604) cs.CL (21619) cs.CR (2231) cs.CV (35206) cs.LG (33368) cs.RO (16520) cs.SY (2542) eess.IV (4287) eess.SY (2536) stat.ML (4474)
「eess.AS」カテゴリーアーカイブ
No-audio speaking status detection in crowded settings via visual pose-based filtering and wearable acceleration
要約 混雑したシーンで誰が話しているかを認識することは、内部で行われている社会的 … 続きを読む
Combining Automatic Speaker Verification and Prosody Analysis for Synthetic Speech Detection
要約 メディア コンテンツ合成技術の急速な普及と、オーディオとビデオのディープフ … 続きを読む
Multimodal Exponentially Modified Gaussian Oscillators
要約 音響モデリングは、ノイズ除去、データ再構築、モデルベースのテスト、分類など … 続きを読む
カテゴリー: cs.CV, cs.SD, eess.AS, physics.app-ph
Multimodal Exponentially Modified Gaussian Oscillators はコメントを受け付けていません
Multimodal Transformer Distillation for Audio-Visual Synchronization
要約 視聴覚同期は、ビデオ内の口の動きと音声が同期しているかどうかを判断すること … 続きを読む
Masked Modeling Duo: Learning Representations by Encouraging Both Networks to Model the Input
要約 Masked Autoencoders は、シンプルでありながら強力な自己 … 続きを読む
OWL (Observe, Watch, Listen): Audiovisual Temporal Context for Localizing Actions in Egocentric Videos
要約 自己中心的なビデオは、一人称視点から人間の活動のシーケンスをキャプチャし、 … 続きを読む
Learning Audio-Visual embedding for Person Verification in the Wild
要約 オーディオビジュアルの埋め込みは、個人の検証において単一モダリティの埋め込 … 続きを読む
Play It Back: Iterative Attention for Audio Recognition
要約 聴覚認知の重要な機能は、特徴的な音とそれに対応するセマンティクスを経時的に … 続きを読む
Intel Labs at Ego4D Challenge 2022: A Better Baseline for Audio-Visual Diarization
要約 このレポートでは、Ego4D チャレンジ 2022 のオーディオ ビジュア … 続きを読む