-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model
要約 このペーパーでは、マルチイメージ推論におけるマルチモーダル大規模言語モデル … 続きを読む
DreamCinema: Cinematic Transfer with Free Camera and 3D Character
要約 私たちはデジタル メディアの隆盛の時代に生きており、誰もが個人の映画製作者 … 続きを読む
ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context
要約 ビジュアルストーリーテリングでは、文字とシーンの一貫性を維持しながら、テキ … 続きを読む
Self-supervised Photographic Image Layout Representation Learning
要約 画像レイアウト表現学習の領域では、画像レイアウトを簡潔なベクトル形式に変換 … 続きを読む
Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation
要約 従来のアニメーション生成方法は、人間がラベル付けしたデータを使用した生成モ … 続きを読む
A Multi-Stream Fusion Approach with One-Class Learning for Audio-Visual Deepfake Detection
要約 この論文では、堅牢なオーディオビジュアルディープフェイク検出モデルを開発す … 続きを読む
Perceptual Depth Quality Assessment of Stereoscopic Omnidirectional Images
要約 奥行き知覚は、没入型仮想現実 (VR) 視覚環境の視聴者エクスペリエンスに … 続きを読む
Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention
要約 感情を理解することは、人間のコミュニケーションの基本的な側面です。 オーデ … 続きを読む
A Multi-Stream Fusion Approach with One-Class Learning for Audio-Visual Deepfake Detection
要約 この論文では、堅牢なオーディオビジュアルディープフェイク検出モデルを開発す … 続きを読む
A Multi-task Adversarial Attack Against Face Authentication
要約 顔認証システムなどの深層学習ベースの ID 管理システムは、敵対的な攻撃に … 続きを読む