cs.MM」カテゴリーアーカイブ

Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention

要約 感情を理解することは、人間のコミュニケーションの基本的な側面です。 オーデ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM, cs.SD, eess.AS, F.2.2 | Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention はコメントを受け付けていません

LookupForensics: A Large-Scale Multi-Task Dataset for Multi-Phase Image-Based Fact Verification

要約 偽造画像の急増、特にディープフェイクコンテンツの津波の中で、偽造技術の継続 … 続きを読む

カテゴリー: cs.CV, cs.MM | LookupForensics: A Large-Scale Multi-Task Dataset for Multi-Phase Image-Based Fact Verification はコメントを受け付けていません

Every Part Matters: Integrity Verification of Scientific Figures Based on Multimodal Large Language Models

要約 この論文は、科学的数値の解釈における重要な問題、つまりテキストと図のきめ細 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.DL, cs.MM | Every Part Matters: Integrity Verification of Scientific Figures Based on Multimodal Large Language Models はコメントを受け付けていません

Selective Vision-Language Subspace Projection for Few-shot CLIP

要約 CLIP などの視覚言語モデルは、さまざまなモダリティ データを統一された … 続きを読む

カテゴリー: cs.CV, cs.MM | Selective Vision-Language Subspace Projection for Few-shot CLIP はコメントを受け付けていません

Shapley Value-based Contrastive Alignment for Multimodal Information Extraction

要約 ソーシャル メディアの台頭とマルチモーダル コミュニケーションの急激な成長 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM | Shapley Value-based Contrastive Alignment for Multimodal Information Extraction はコメントを受け付けていません

ReCorD: Reasoning and Correcting Diffusion for HOI Generation

要約 拡散モデルは、自然言語を活用してマルチメディア コンテンツの作成をガイドす … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | ReCorD: Reasoning and Correcting Diffusion for HOI Generation はコメントを受け付けていません

Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing Images

要約 継続学習 (CL) は、一方向のトレーニング方法を打破し、モデルが新しいデ … 続きを読む

カテゴリー: cs.CV, cs.MM | Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing Images はコメントを受け付けていません

A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding

要約 最近、多くの研究で、OCR から派生したテキストと空間レイアウトを大規模言 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM | A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding はコメントを受け付けていません

Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation

要約 テキストから画像への取得は、意味的に関連するクロスモーダル コンテンツを取 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation はコメントを受け付けていません

MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues

要約 マルチモーダル大規模言語モデル (MLLM) は、ビデオ内の視覚、音響、言 … 続きを読む

カテゴリー: cs.CV, cs.MM | MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues はコメントを受け付けていません