-
最近の投稿
- Multi-Object Tracking for Collision Avoidance Using Multiple Cameras in Open RAN Networks
- A Pointcloud Registration Framework for Relocalization in Subterranean Environments
- Analysis of the Unscented Transform for Cooperative Localization with Ranging-Only Information
- CORTEX-AVD: A Framework for CORner Case Testing and EXploration in Autonomous Vehicle Development
- Expectations, Explanations, and Embodiment: Attempts at Robot Failure Recovery
-
最近のコメント
表示できるコメントはありません。 cs.AI (36432) cs.CL (27575) cs.CV (42250) cs.HC (2776) cs.LG (41412) cs.RO (21539) cs.SY (3262) eess.IV (4945) eess.SY (3256) stat.ML (5418)
「cs.MM」カテゴリーアーカイブ
Language-Guided Diffusion Model for Visual Grounding
要約 視覚的に接地(VG)タスクには、明示的に対応する画像領域が提供される言語フ … 続きを読む
ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context
要約 視覚的なストーリーテリングには、キャラクターやシーンの一貫性を維持しながら … 続きを読む
LightThinker: Thinking Step-by-Step Compression
要約 大規模な言語モデル(LLM)は、複雑な推論タスクで顕著なパフォーマンスを示 … 続きを読む
Exploring Mutual Cross-Modal Attention for Context-Aware Human Affordance Generation
要約 人間のアフォーダンス学習は、推定されたポーズがシーン内の有効な人間の行動を … 続きを読む
Multimodal Fake News Video Explanation Generation: Dataset, Model, and Evaluation
要約 既存の方法は、分類の問題として偽のニュースビデオの検出に対処していますが、 … 続きを読む
Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention
要約 感情を理解することは、人間のコミュニケーションの基本的な側面です。 オーデ … 続きを読む
Multi-scale Attention Guided Pose Transfer
要約 ポーズ転送とは、異なるポーズをとっている人の別のイメージから、以前に見えな … 続きを読む
TIPS: Text-Induced Pose Synthesis
要約 コンピュータービジョンでは、人間のポーズ統合と転送は、その人のすでに利用可 … 続きを読む
Scene Aware Person Image Generation through Global Contextual Conditioning
要約 人のイメージ生成は、興味をそそるが挑戦的な問題です。 ただし、制約された状 … 続きを読む
Semantically Consistent Person Image Generation
要約 コンテキストを認識している人の画像生成のためのデータ駆動型アプローチを提案 … 続きを読む