cs.MM」カテゴリーアーカイブ

Exploring Mutual Cross-Modal Attention for Context-Aware Human Affordance Generation

要約 人間のアフォーダンス学習は、推定されたポーズがシーン内の有効な人間の行動を … 続きを読む

カテゴリー: cs.CV, cs.MM | コメントする

Multimodal Fake News Video Explanation Generation: Dataset, Model, and Evaluation

要約 既存の方法は、分類の問題として偽のニュースビデオの検出に対処していますが、 … 続きを読む

カテゴリー: cs.CV, cs.MM | コメントする

Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention

要約 感情を理解することは、人間のコミュニケーションの基本的な側面です。 オーデ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM, cs.SD, eess.AS, F.2.2 | コメントする

Multi-scale Attention Guided Pose Transfer

要約 ポーズ転送とは、異なるポーズをとっている人の別のイメージから、以前に見えな … 続きを読む

カテゴリー: cs.CV, cs.MM | コメントする

TIPS: Text-Induced Pose Synthesis

要約 コンピュータービジョンでは、人間のポーズ統合と転送は、その人のすでに利用可 … 続きを読む

カテゴリー: cs.CV, cs.MM | コメントする

Scene Aware Person Image Generation through Global Contextual Conditioning

要約 人のイメージ生成は、興味をそそるが挑戦的な問題です。 ただし、制約された状 … 続きを読む

カテゴリー: cs.CV, cs.MM | コメントする

Semantically Consistent Person Image Generation

要約 コンテキストを認識している人の画像生成のためのデータ駆動型アプローチを提案 … 続きを読む

カテゴリー: cs.CV, cs.MM | コメントする

Bridging Compressed Image Latents and Multimodal Large Language Models

要約 このホワイトペーパーでは、マルチモーダルの大手言語モデル(MLLM)を採用 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM | コメントする

Token Communications: A Unified Framework for Cross-modal Context-aware Semantic Communications

要約 このホワイトペーパーでは、生成セマンティックコミュニケーションズ(GENS … 続きを読む

カテゴリー: cs.CV, cs.IT, cs.MM, eess.SP, math.IT | コメントする

Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination

要約 マルチモーダル大手言語モデル(MLLMS)の急速な進行により、さまざまなマ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントする