cs.MM」カテゴリーアーカイブ

Self-supervised Photographic Image Layout Representation Learning

要約 画像レイアウト表現学習の領域では、画像レイアウトを簡潔なベクトル形式に変換 … 続きを読む

カテゴリー: cs.CV, cs.MM | Self-supervised Photographic Image Layout Representation Learning はコメントを受け付けていません

Causal-Story: Local Causal Attention Utilizing Parameter-Efficient Tuning For Visual Story Synthesis

要約 拡散モデルの優れたテキストから画像への合成機能により、一貫したビジュアル … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Causal-Story: Local Causal Attention Utilizing Parameter-Efficient Tuning For Visual Story Synthesis はコメントを受け付けていません

SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection

要約 誤った情報は潜在的に高いリスクを伴うため、蔓延する社会問題です。 本物の画 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CY, cs.MM | SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection はコメントを受け付けていません

Cross Pseudo-Labeling for Semi-Supervised Audio-Visual Source Localization

要約 AVSL (Audio-Visual Source Localizatio … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Cross Pseudo-Labeling for Semi-Supervised Audio-Visual Source Localization はコメントを受け付けていません

Dual Mean-Teacher: An Unbiased Semi-Supervised Framework for Audio-Visual Source Localization

要約 AVSL (Audio-Visual Source Localizatio … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | Dual Mean-Teacher: An Unbiased Semi-Supervised Framework for Audio-Visual Source Localization はコメントを受け付けていません

G4G:A Generic Framework for High Fidelity Talking Face Generation with Fine-grained Intra-modal Alignment

要約 数多くの研究が完了しているにもかかわらず、任意の音声に対応する高度に同期し … 続きを読む

カテゴリー: cs.CV, cs.MM | G4G:A Generic Framework for High Fidelity Talking Face Generation with Fine-grained Intra-modal Alignment はコメントを受け付けていません

MuLTI: Efficient Video-and-Language Understanding with Text-Guided MultiWay-Sampler and Multiple Choice Modeling

要約 ビデオと言語の理解は、ビデオ質問応答、テキスト-ビデオ検索、マルチラベル分 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | MuLTI: Efficient Video-and-Language Understanding with Text-Guided MultiWay-Sampler and Multiple Choice Modeling はコメントを受け付けていません

EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoE

要約 多様なマルチモーダルデータから学習するスケーラブルな視覚言語モデルの構築は … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM | EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoE はコメントを受け付けていません

DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder

要約 最近の研究により、音声駆動型話し顔生成は大きく進歩したが、生成された映像の … 続きを読む

カテゴリー: cs.CV, cs.MM | DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder はコメントを受け付けていません

A Novel Approach to Industrial Defect Generation through Blended Latent Diffusion Model with Online Adaptation

要約 産業用異常検出 (AD) の課題に効果的に対処するには、欠陥のあるサンプル … 続きを読む

カテゴリー: cs.CV, cs.MM | A Novel Approach to Industrial Defect Generation through Blended Latent Diffusion Model with Online Adaptation はコメントを受け付けていません