cs.MM」カテゴリーアーカイブ

Exploring Mutual Cross-Modal Attention for Context-Aware Human Affordance Generation

要約 人間のアフォーダンス学習は、推定されたポーズがシーン内の有効な人間の行動を … 続きを読む

カテゴリー: cs.CV, cs.MM | Exploring Mutual Cross-Modal Attention for Context-Aware Human Affordance Generation はコメントを受け付けていません

Multimodal Fake News Video Explanation Generation: Dataset, Model, and Evaluation

要約 既存の方法は、分類の問題として偽のニュースビデオの検出に対処していますが、 … 続きを読む

カテゴリー: cs.CV, cs.MM | Multimodal Fake News Video Explanation Generation: Dataset, Model, and Evaluation はコメントを受け付けていません

Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention

要約 感情を理解することは、人間のコミュニケーションの基本的な側面です。 オーデ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM, cs.SD, eess.AS, F.2.2 | Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention はコメントを受け付けていません

Multi-scale Attention Guided Pose Transfer

要約 ポーズ転送とは、異なるポーズをとっている人の別のイメージから、以前に見えな … 続きを読む

カテゴリー: cs.CV, cs.MM | Multi-scale Attention Guided Pose Transfer はコメントを受け付けていません

TIPS: Text-Induced Pose Synthesis

要約 コンピュータービジョンでは、人間のポーズ統合と転送は、その人のすでに利用可 … 続きを読む

カテゴリー: cs.CV, cs.MM | TIPS: Text-Induced Pose Synthesis はコメントを受け付けていません

Scene Aware Person Image Generation through Global Contextual Conditioning

要約 人のイメージ生成は、興味をそそるが挑戦的な問題です。 ただし、制約された状 … 続きを読む

カテゴリー: cs.CV, cs.MM | Scene Aware Person Image Generation through Global Contextual Conditioning はコメントを受け付けていません

Semantically Consistent Person Image Generation

要約 コンテキストを認識している人の画像生成のためのデータ駆動型アプローチを提案 … 続きを読む

カテゴリー: cs.CV, cs.MM | Semantically Consistent Person Image Generation はコメントを受け付けていません

Bridging Compressed Image Latents and Multimodal Large Language Models

要約 このホワイトペーパーでは、マルチモーダルの大手言語モデル(MLLM)を採用 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM | Bridging Compressed Image Latents and Multimodal Large Language Models はコメントを受け付けていません

Token Communications: A Unified Framework for Cross-modal Context-aware Semantic Communications

要約 このホワイトペーパーでは、生成セマンティックコミュニケーションズ(GENS … 続きを読む

カテゴリー: cs.CV, cs.IT, cs.MM, eess.SP, math.IT | Token Communications: A Unified Framework for Cross-modal Context-aware Semantic Communications はコメントを受け付けていません

Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination

要約 マルチモーダル大手言語モデル(MLLMS)の急速な進行により、さまざまなマ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination はコメントを受け付けていません