cs.MM」カテゴリーアーカイブ

GaussianImage: 1000 FPS Image Representation and Compression by 2D Gaussian Splatting

要約 暗黙的ニューラル表現 (INR) は最近、画像表現と圧縮において大きな成功 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, eess.IV | GaussianImage: 1000 FPS Image Representation and Compression by 2D Gaussian Splatting はコメントを受け付けていません

Leveraging Compressed Frame Sizes For Ultra-Fast Video Classification

要約 ビデオをスポーツ ビデオやミュージック ビデオなどの異なるカテゴリに分類す … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | Leveraging Compressed Frame Sizes For Ultra-Fast Video Classification はコメントを受け付けていません

MoPE-CLIP: Structured Pruning for Efficient Vision-Language Models with Module-wise Pruning Error Metric

要約 ビジョン言語の事前トレーニング済みモデルは、さまざまな下流タスクで優れたパ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | MoPE-CLIP: Structured Pruning for Efficient Vision-Language Models with Module-wise Pruning Error Metric はコメントを受け付けていません

FashionReGen: LLM-Empowered Fashion Report Generation

要約 ファッション分析とは、ファッション業界内のトレンド、スタイル、要素を調査お … 続きを読む

カテゴリー: cs.AI, cs.MA, cs.MM | FashionReGen: LLM-Empowered Fashion Report Generation はコメントを受け付けていません

RED-DOT: Multimodal Fact-checking via Relevant Evidence Detection

要約 オンラインの誤った情報は本質的に多峰性であることが多く、テキストと付随する … 続きを読む

カテゴリー: cs.CV, cs.MM | RED-DOT: Multimodal Fact-checking via Relevant Evidence Detection はコメントを受け付けていません

T-TAME: Trainable Attention Mechanism for Explaining Convolutional Networks and Vision Transformers

要約 画像分類タスク用の Vision Transformers やその他の深層 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | T-TAME: Trainable Attention Mechanism for Explaining Convolutional Networks and Vision Transformers はコメントを受け付けていません

Self-supervised Photographic Image Layout Representation Learning

要約 画像レイアウト表現学習の領域では、画像レイアウトを簡潔なベクトル形式に変換 … 続きを読む

カテゴリー: cs.CV, cs.MM | Self-supervised Photographic Image Layout Representation Learning はコメントを受け付けていません

Causal-Story: Local Causal Attention Utilizing Parameter-Efficient Tuning For Visual Story Synthesis

要約 拡散モデルの優れたテキストから画像への合成機能により、一貫したビジュアル … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Causal-Story: Local Causal Attention Utilizing Parameter-Efficient Tuning For Visual Story Synthesis はコメントを受け付けていません

SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection

要約 誤った情報は潜在的に高いリスクを伴うため、蔓延する社会問題です。 本物の画 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CY, cs.MM | SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection はコメントを受け付けていません

Cross Pseudo-Labeling for Semi-Supervised Audio-Visual Source Localization

要約 AVSL (Audio-Visual Source Localizatio … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Cross Pseudo-Labeling for Semi-Supervised Audio-Visual Source Localization はコメントを受け付けていません