cs.MM」カテゴリーアーカイブ

FoodMLLM-JP: Leveraging Multimodal Large Language Models for Japanese Recipe Generation

要約 レシピデータを用いた食品イメージの理解に関する研究は、そのデータの多様性と … 続きを読む

カテゴリー: cs.CV, cs.MM | FoodMLLM-JP: Leveraging Multimodal Large Language Models for Japanese Recipe Generation はコメントを受け付けていません

TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding

要約 ドメイン固有の定理を理解するには、多くの場合、単なるテキストベースの推論以 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding はコメントを受け付けていません

Language-Guided Diffusion Model for Visual Grounding

要約 視覚的に接地(VG)タスクには、明示的に対応する画像領域が提供される言語フ … 続きを読む

カテゴリー: cs.CV, cs.MM | Language-Guided Diffusion Model for Visual Grounding はコメントを受け付けていません

ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context

要約 視覚的なストーリーテリングには、キャラクターやシーンの一貫性を維持しながら … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context はコメントを受け付けていません

LightThinker: Thinking Step-by-Step Compression

要約 大規模な言語モデル(LLM)は、複雑な推論タスクで顕著なパフォーマンスを示 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG, cs.MM | LightThinker: Thinking Step-by-Step Compression はコメントを受け付けていません

Exploring Mutual Cross-Modal Attention for Context-Aware Human Affordance Generation

要約 人間のアフォーダンス学習は、推定されたポーズがシーン内の有効な人間の行動を … 続きを読む

カテゴリー: cs.CV, cs.MM | Exploring Mutual Cross-Modal Attention for Context-Aware Human Affordance Generation はコメントを受け付けていません

Multimodal Fake News Video Explanation Generation: Dataset, Model, and Evaluation

要約 既存の方法は、分類の問題として偽のニュースビデオの検出に対処していますが、 … 続きを読む

カテゴリー: cs.CV, cs.MM | Multimodal Fake News Video Explanation Generation: Dataset, Model, and Evaluation はコメントを受け付けていません

Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention

要約 感情を理解することは、人間のコミュニケーションの基本的な側面です。 オーデ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM, cs.SD, eess.AS, F.2.2 | Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention はコメントを受け付けていません

Multi-scale Attention Guided Pose Transfer

要約 ポーズ転送とは、異なるポーズをとっている人の別のイメージから、以前に見えな … 続きを読む

カテゴリー: cs.CV, cs.MM | Multi-scale Attention Guided Pose Transfer はコメントを受け付けていません

TIPS: Text-Induced Pose Synthesis

要約 コンピュータービジョンでは、人間のポーズ統合と転送は、その人のすでに利用可 … 続きを読む

カテゴリー: cs.CV, cs.MM | TIPS: Text-Induced Pose Synthesis はコメントを受け付けていません