「cs.MM」カテゴリーアーカイブ

MoPE-CLIP: Structured Pruning for Efficient Vision-Language Models with Module-wise Pruning Error Metric

投稿日: 2024年3月13日作成者: jarxiv

要約ビジョン言語の事前トレーニング済みモデルは、さまざまな下流タスクで優れたパ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

FashionReGen: LLM-Empowered Fashion Report Generation

投稿日: 2024年3月12日作成者: jarxiv

要約ファッション分析とは、ファッション業界内のトレンド、スタイル、要素を調査お … 続きを読む →

カテゴリー: cs.AI, cs.MA, cs.MM | コメントを受け付けていません

RED-DOT: Multimodal Fact-checking via Relevant Evidence Detection

投稿日: 2024年3月8日作成者: jarxiv

要約オンラインの誤った情報は本質的に多峰性であることが多く、テキストと付随する … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

T-TAME: Trainable Attention Mechanism for Explaining Convolutional Networks and Vision Transformers

投稿日: 2024年3月8日作成者: jarxiv

要約画像分類タスク用の Vision Transformers やその他の深層 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Self-supervised Photographic Image Layout Representation Learning

投稿日: 2024年3月7日作成者: jarxiv

要約画像レイアウト表現学習の領域では、画像レイアウトを簡潔なベクトル形式に変換 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Causal-Story: Local Causal Attention Utilizing Parameter-Efficient Tuning For Visual Story Synthesis

投稿日: 2024年3月7日作成者: jarxiv

要約拡散モデルの優れたテキストから画像への合成機能により、一貫したビジュアル … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection

投稿日: 2024年3月6日作成者: jarxiv

要約誤った情報は潜在的に高いリスクを伴うため、蔓延する社会問題です。本物の画 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CY, cs.MM | コメントを受け付けていません

Cross Pseudo-Labeling for Semi-Supervised Audio-Visual Source Localization

投稿日: 2024年3月6日作成者: jarxiv

要約 AVSL (Audio-Visual Source Localizatio … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Dual Mean-Teacher: An Unbiased Semi-Supervised Framework for Audio-Visual Source Localization

投稿日: 2024年3月6日作成者: jarxiv

要約 AVSL (Audio-Visual Source Localizatio … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

G4G:A Generic Framework for High Fidelity Talking Face Generation with Fine-grained Intra-modal Alignment

投稿日: 2024年3月5日作成者: jarxiv

要約数多くの研究が完了しているにもかかわらず、任意の音声に対応する高度に同期し … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

MoPE-CLIP: Structured Pruning for Efficient Vision-Language Models with Module-wise Pruning Error Metric

FashionReGen: LLM-Empowered Fashion Report Generation

RED-DOT: Multimodal Fact-checking via Relevant Evidence Detection

T-TAME: Trainable Attention Mechanism for Explaining Convolutional Networks and Vision Transformers

Self-supervised Photographic Image Layout Representation Learning

Causal-Story: Local Causal Attention Utilizing Parameter-Efficient Tuning For Visual Story Synthesis

SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection

Cross Pseudo-Labeling for Semi-Supervised Audio-Visual Source Localization

Dual Mean-Teacher: An Unbiased Semi-Supervised Framework for Audio-Visual Source Localization

G4G:A Generic Framework for High Fidelity Talking Face Generation with Fine-grained Intra-modal Alignment

最近の投稿

最近のコメント

アーカイブ

カテゴリー