「cs.MM」カテゴリーアーカイブ

AxiomVision: Accuracy-Guaranteed Adaptive Visual Model Selection for Perspective-Aware Video Analytics

投稿日: 2024年7月31日作成者: jarxiv

要約マルチメディアおよびコンピュータビジョンテクノロジの急速な進化には、多 … 続きを読む →

カテゴリー: cs.AI, cs.MM | コメントを受け付けていません

Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study

投稿日: 2024年7月30日作成者: jarxiv

要約ディープニューラルネットワークは最近、サウンド生成において画期的な進歩 … 続きを読む →

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

AxiomVision: Accuracy-Guaranteed Adaptive Visual Model Selection for Perspective-Aware Video Analytics

投稿日: 2024年7月30日作成者: jarxiv

要約マルチメディアおよびコンピュータビジョンテクノロジの急速な進化には、多 … 続きを読む →

カテゴリー: cs.AI, cs.MM | コメントを受け付けていません

Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention

投稿日: 2024年7月29日作成者: jarxiv

要約感情を理解することは、人間のコミュニケーションの基本的な側面です。オーデ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM, cs.SD, eess.AS, F.2.2 | コメントを受け付けていません

LookupForensics: A Large-Scale Multi-Task Dataset for Multi-Phase Image-Based Fact Verification

投稿日: 2024年7月29日作成者: jarxiv

要約偽造画像の急増、特にディープフェイクコンテンツの津波の中で、偽造技術の継続 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Every Part Matters: Integrity Verification of Scientific Figures Based on Multimodal Large Language Models

投稿日: 2024年7月29日作成者: jarxiv

要約この論文は、科学的数値の解釈における重要な問題、つまりテキストと図のきめ細 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.DL, cs.MM | コメントを受け付けていません

Selective Vision-Language Subspace Projection for Few-shot CLIP

投稿日: 2024年7月29日作成者: jarxiv

要約 CLIP などの視覚言語モデルは、さまざまなモダリティデータを統一された … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Shapley Value-based Contrastive Alignment for Multimodal Information Extraction

投稿日: 2024年7月26日作成者: jarxiv

要約ソーシャルメディアの台頭とマルチモーダルコミュニケーションの急激な成長 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.MM | コメントを受け付けていません

ReCorD: Reasoning and Correcting Diffusion for HOI Generation

投稿日: 2024年7月26日作成者: jarxiv

要約拡散モデルは、自然言語を活用してマルチメディアコンテンツの作成をガイドす … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing Images

投稿日: 2024年7月26日作成者: jarxiv

要約継続学習 (CL) は、一方向のトレーニング方法を打破し、モデルが新しいデ … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

AxiomVision: Accuracy-Guaranteed Adaptive Visual Model Selection for Perspective-Aware Video Analytics

Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study

AxiomVision: Accuracy-Guaranteed Adaptive Visual Model Selection for Perspective-Aware Video Analytics

Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention

LookupForensics: A Large-Scale Multi-Task Dataset for Multi-Phase Image-Based Fact Verification

Every Part Matters: Integrity Verification of Scientific Figures Based on Multimodal Large Language Models

Selective Vision-Language Subspace Projection for Few-shot CLIP

Shapley Value-based Contrastive Alignment for Multimodal Information Extraction

ReCorD: Reasoning and Correcting Diffusion for HOI Generation

Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing Images

最近の投稿

最近のコメント

アーカイブ

カテゴリー