cs.MM」カテゴリーアーカイブ

A Comprehensive Survey of Knowledge-Based Vision Question Answering Systems: The Lifecycle of Knowledge in Visual Reasoning Task

要約 知識ベースのビジョン質問応答(KB-VQA)は、視覚的およびテキストの入力 … 続きを読む

カテゴリー: cs.CV, cs.IR, cs.MM | A Comprehensive Survey of Knowledge-Based Vision Question Answering Systems: The Lifecycle of Knowledge in Visual Reasoning Task はコメントを受け付けていません

FMNV: A Dataset of Media-Published News Videos for Fake News Detection

要約 ニュースメディア、特にビデオベースのプラットフォームは、日常生活に深く組み … 続きを読む

カテゴリー: cs.CV, cs.MM | FMNV: A Dataset of Media-Published News Videos for Fake News Detection はコメントを受け付けていません

CasualHDRSplat: Robust High Dynamic Range 3D Gaussian Splatting from Casually Captured Videos

要約 最近、ニューラル放射輝度フィールド(NERF)や3Dガウスのスプラッティン … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.MM | CasualHDRSplat: Robust High Dynamic Range 3D Gaussian Splatting from Casually Captured Videos はコメントを受け付けていません

TCAN: Text-oriented Cross Attention Network for Multimodal Sentiment Analysis

要約 マルチモーダル感情分析(MSA)は、言語、視覚、音響のモダリティを活用する … 続きを読む

カテゴリー: cs.CL, cs.MM | TCAN: Text-oriented Cross Attention Network for Multimodal Sentiment Analysis はコメントを受け付けていません

AudioX: Diffusion Transformer for Anything-to-Audio Generation

要約 オーディオと音楽の生成は、多くのアプリケーションで重要なタスクとして浮上し … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | AudioX: Diffusion Transformer for Anything-to-Audio Generation はコメントを受け付けていません

4D Multimodal Co-attention Fusion Network with Latent Contrastive Alignment for Alzheimer’s Diagnosis

要約 マルチモーダルニューロイメージングは​​、人間の脳組織と疾患関連のダイナミ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM | 4D Multimodal Co-attention Fusion Network with Latent Contrastive Alignment for Alzheimer’s Diagnosis はコメントを受け付けていません

VLM as Policy: Common-Law Content Moderation Framework for Short Video Platform

要約 指数関数的に成長する短いビデオプラットフォーム(SVP)は、特に未成年者に … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SI | VLM as Policy: Common-Law Content Moderation Framework for Short Video Platform はコメントを受け付けていません

Chain-of-Modality: Learning Manipulation Programs from Multimodal Human Videos with Vision-Language-Models

要約 人間のビデオから操作タスクを実行することを学ぶことは、ロボットを教えるため … 続きを読む

カテゴリー: cs.AI, cs.HC, cs.LG, cs.MM, cs.RO | Chain-of-Modality: Learning Manipulation Programs from Multimodal Human Videos with Vision-Language-Models はコメントを受け付けていません

SemCORE: A Semantic-Enhanced Generative Cross-Modal Retrieval Framework with MLLMs

要約 クロスモーダル検索(CMR)は、マルチメディア研究の基本的なタスクであり、 … 続きを読む

カテゴリー: cs.CL, cs.IR, cs.MM | SemCORE: A Semantic-Enhanced Generative Cross-Modal Retrieval Framework with MLLMs はコメントを受け付けていません

HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation

要約 シーンレベルの3D世代は、マルチメディアとコンピューターグラフィックスの重 … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.MM | HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation はコメントを受け付けていません