-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Learning Audio-Visual embedding for Person Verification in the Wild
要約 オーディオビジュアルの埋め込みは、個人の検証において単一モダリティの埋め込 … 続きを読む
Play It Back: Iterative Attention for Audio Recognition
要約 聴覚認知の重要な機能は、特徴的な音とそれに対応するセマンティクスを経時的に … 続きを読む
Intel Labs at Ego4D Challenge 2022: A Better Baseline for Audio-Visual Diarization
要約 このレポートでは、Ego4D チャレンジ 2022 のオーディオ ビジュア … 続きを読む
Sparse in Space and Time: Audio-visual Synchronisation with Trainable Selectors
要約 このホワイト ペーパーの目的は、「実際の」一般的なビデオの視聴覚同期です。 … 続きを読む
Deepfake audio detection by speaker verification
要約 最近の深層学習の進歩のおかげで、今日では非常にリアルな合成音声を生成する高 … 続きを読む
Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results
要約 ユーモアは、人間の感情と認識の重要な要素です。 その自動理解は、より自然な … 続きを読む
Multi-encoder attention-based architectures for sound recognition with partial visual assistance
要約 大規模な音声認識データ セットは通常、マルチメディア ライブラリから取得し … 続きを読む
AutoLV: Automatic Lecture Video Generator
要約 注釈付きスライド、講師の参照音声、講師の参照ポートレート ビデオから直接、 … 続きを読む
Transformer-Based Video Front-Ends for Audio-Visual Speech Recognition for Single and Multi-Person Video
要約 オーディオビジュアル自動音声認識 (AV-ASR) は、追加の情報源として … 続きを読む