cs.MM」カテゴリーアーカイブ

Priority-Centric Human Motion Generation in Discrete Latent Space

要約 テキストからモーションへの生成は、人間の能力と物理法則に準拠しながら、入力 … 続きを読む

カテゴリー: cs.CV, cs.MM | Priority-Centric Human Motion Generation in Discrete Latent Space はコメントを受け付けていません

Exploiting Diverse Feature for Multimodal Sentiment Analysis

要約 このペーパーでは、MuSe 2023 マルチモーダル感情分析チャレンジの … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Exploiting Diverse Feature for Multimodal Sentiment Analysis はコメントを受け付けていません

Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language Pretraining?

要約 マルチメディア コミュニティは、マルチモーダルな事前学習済みニューラル ネ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language Pretraining? はコメントを受け付けていません

With a Little Help from your own Past: Prototypical Memory Networks for Image Captioning

要約 画像のキャプション作成は、視覚と言語を伴う多くのタスクと同様に、現在、画像 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | With a Little Help from your own Past: Prototypical Memory Networks for Image Captioning はコメントを受け付けていません

Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal Structured Representations

要約 大規模な視覚言語の事前トレーニングは、マルチモーダルな理解と生成タスクにお … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM | Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal Structured Representations はコメントを受け付けていません

Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language Pretraining?

要約 マルチメディア コミュニティは、マルチモーダルな事前学習済みニューラル ネ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language Pretraining? はコメントを受け付けていません

EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoE

要約 多様でマルチモーダルなデータから学習するためのスケーラブルなビジョン言語モ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM | EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoE はコメントを受け付けていません

CgT-GAN: CLIP-guided Text GAN for Image Captioning

要約 大規模な視覚言語の事前トレーニング モデルである Contrastive … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | CgT-GAN: CLIP-guided Text GAN for Image Captioning はコメントを受け付けていません

Multimodal Garment Designer: Human-Centric Latent Diffusion Models for Fashion Image Editing

要約 ファッションイラストは、デザイナーが自分のビジョンを伝え、デザインアイデア … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Multimodal Garment Designer: Human-Centric Latent Diffusion Models for Fashion Image Editing はコメントを受け付けていません

WMFormer++: Nested Transformer for Visible Watermark Removal via Implict Joint Learning

要約 透かしは、メディアの著作権を保護するために広く採用されているアプローチとし … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM, eess.IV | WMFormer++: Nested Transformer for Visible Watermark Removal via Implict Joint Learning はコメントを受け付けていません