-
最近の投稿
- 3D Water Quality Mapping using Invariant Extended Kalman Filtering for Underwater Robot Localization
- Hybrid Visual Servoing of Tendon-driven Continuum Robots
- Embodying Control in Soft Multistable Grippers from morphofunctional co-design
- View-Invariant Policy Learning via Zero-Shot Novel View Synthesis
- ModSkill: Physical Character Skill Modularization
-
最近のコメント
表示できるコメントはありません。 cs.AI (34028) cs.CL (25726) cs.CR (2616) cs.CV (39965) cs.LG (39031) cs.RO (19850) cs.SY (3019) eess.IV (4757) eess.SY (3013) stat.ML (5150)
「cs.MM」カテゴリーアーカイブ
Exploring Mutual Cross-Modal Attention for Context-Aware Human Affordance Generation
要約 人間のアフォーダンス学習は、推定されたポーズがシーン内の有効な人間の行動を … 続きを読む
Multimodal Fake News Video Explanation Generation: Dataset, Model, and Evaluation
要約 既存の方法は、分類の問題として偽のニュースビデオの検出に対処していますが、 … 続きを読む
Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention
要約 感情を理解することは、人間のコミュニケーションの基本的な側面です。 オーデ … 続きを読む
Multi-scale Attention Guided Pose Transfer
要約 ポーズ転送とは、異なるポーズをとっている人の別のイメージから、以前に見えな … 続きを読む
TIPS: Text-Induced Pose Synthesis
要約 コンピュータービジョンでは、人間のポーズ統合と転送は、その人のすでに利用可 … 続きを読む
Scene Aware Person Image Generation through Global Contextual Conditioning
要約 人のイメージ生成は、興味をそそるが挑戦的な問題です。 ただし、制約された状 … 続きを読む
Semantically Consistent Person Image Generation
要約 コンテキストを認識している人の画像生成のためのデータ駆動型アプローチを提案 … 続きを読む
Bridging Compressed Image Latents and Multimodal Large Language Models
要約 このホワイトペーパーでは、マルチモーダルの大手言語モデル(MLLM)を採用 … 続きを読む
Token Communications: A Unified Framework for Cross-modal Context-aware Semantic Communications
要約 このホワイトペーパーでは、生成セマンティックコミュニケーションズ(GENS … 続きを読む