「cs.MM」カテゴリーアーカイブ

Priority-Centric Human Motion Generation in Discrete Latent Space

投稿日: 2023年8月29日作成者: jarxiv

要約テキストからモーションへの生成は、人間の能力と物理法則に準拠しながら、入力 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Exploiting Diverse Feature for Multimodal Sentiment Analysis

投稿日: 2023年8月28日作成者: jarxiv

要約このペーパーでは、MuSe 2023 マルチモーダル感情分析チャレンジの … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language Pretraining?

投稿日: 2023年8月28日作成者: jarxiv

要約マルチメディアコミュニティは、マルチモーダルな事前学習済みニューラルネ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

With a Little Help from your own Past: Prototypical Memory Networks for Image Captioning

投稿日: 2023年8月25日作成者: jarxiv

要約画像のキャプション作成は、視覚と言語を伴う多くのタスクと同様に、現在、画像 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal Structured Representations

投稿日: 2023年8月25日作成者: jarxiv

要約大規模な視覚言語の事前トレーニングは、マルチモーダルな理解と生成タスクにお … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.MM | コメントを受け付けていません

Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language Pretraining?

投稿日: 2023年8月25日作成者: jarxiv

要約マルチメディアコミュニティは、マルチモーダルな事前学習済みニューラルネ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoE

投稿日: 2023年8月24日作成者: jarxiv

要約多様でマルチモーダルなデータから学習するためのスケーラブルなビジョン言語モ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

CgT-GAN: CLIP-guided Text GAN for Image Captioning

投稿日: 2023年8月24日作成者: jarxiv

要約大規模な視覚言語の事前トレーニングモデルである Contrastive … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Multimodal Garment Designer: Human-Centric Latent Diffusion Models for Fashion Image Editing

投稿日: 2023年8月24日作成者: jarxiv

要約ファッションイラストは、デザイナーが自分のビジョンを伝え、デザインアイデア … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

WMFormer++: Nested Transformer for Visible Watermark Removal via Implict Joint Learning

投稿日: 2023年8月23日作成者: jarxiv

要約透かしは、メディアの著作権を保護するために広く採用されているアプローチとし … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM, eess.IV | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

Priority-Centric Human Motion Generation in Discrete Latent Space

Exploiting Diverse Feature for Multimodal Sentiment Analysis

Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language Pretraining?

With a Little Help from your own Past: Prototypical Memory Networks for Image Captioning

Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal Structured Representations

Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language Pretraining?

EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoE

CgT-GAN: CLIP-guided Text GAN for Image Captioning

Multimodal Garment Designer: Human-Centric Latent Diffusion Models for Fashion Image Editing

WMFormer++: Nested Transformer for Visible Watermark Removal via Implict Joint Learning

最近の投稿

最近のコメント

アーカイブ

カテゴリー