「cs.MM」カテゴリーアーカイブ

Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal Structured Representations

投稿日: 2023年12月14日作成者: jarxiv

要約大規模な視覚言語の事前トレーニングは、マルチモーダルな理解と生成タスクにお … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.MM | コメントを受け付けていません

Concept-centric Personalization with Large-scale Diffusion Priors

投稿日: 2023年12月14日作成者: jarxiv

要約大規模な拡散モデルは多様なオープンワールドコンテンツを生成する能力が高い … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

Accelerated Event-Based Feature Detection and Compression for Surveillance Video Systems

投稿日: 2023年12月14日作成者: jarxiv

要約監視ビデオの強力な時間的一貫性により、従来の方法で魅力的な圧縮パフォーマン … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

More than Vanilla Fusion: a Simple, Decoupling-free, Attention Module for Multimodal Fusion Based on Signal Theory

投稿日: 2023年12月13日作成者: jarxiv

要約バニラフュージョン手法は、依然として主流のオーディオビジュアルタスクの大 … 続きを読む →

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Alternating Gradient Descent and Mixture-of-Experts for Integrated Multimodal Perception

投稿日: 2023年12月12日作成者: jarxiv

要約シンプルでスケーラブルなマルチモーダルマルチタスクトレーニングおよびモ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, eess.IV | コメントを受け付けていません

SmartMask: Context Aware High-Fidelity Mask Generation for Fine-grained Object Insertion and Layout Control

投稿日: 2023年12月11日作成者: jarxiv

要約生成画像修復とオブジェクト挿入の分野は、最近の潜在拡散モデルの出現により大 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.HC, cs.LG, cs.MM | コメントを受け付けていません

PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding

投稿日: 2023年12月8日作成者: jarxiv

要約テキストから画像への生成における最近の進歩により、指定されたテキストプロ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Generating Illustrated Instructions

投稿日: 2023年12月8日作成者: jarxiv

要約イラスト付き説明書、つまりユーザーのニーズに合わせてカスタマイズされた視覚 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Kandinsky 3.0 Technical Report

投稿日: 2023年12月7日作成者: jarxiv

要約我々は、潜在拡散に基づく大規模なテキストから画像への生成モデルである Ka … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM | コメントを受け付けていません

MotionCtrl: A Unified and Flexible Motion Controller for Video Generation

投稿日: 2023年12月7日作成者: jarxiv

要約ビデオ内の動きは主に、カメラの動きによって引き起こされるカメラの動きと、オ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal Structured Representations

Concept-centric Personalization with Large-scale Diffusion Priors

Accelerated Event-Based Feature Detection and Compression for Surveillance Video Systems

More than Vanilla Fusion: a Simple, Decoupling-free, Attention Module for Multimodal Fusion Based on Signal Theory

Alternating Gradient Descent and Mixture-of-Experts for Integrated Multimodal Perception

SmartMask: Context Aware High-Fidelity Mask Generation for Fine-grained Object Insertion and Layout Control

PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding

Generating Illustrated Instructions

Kandinsky 3.0 Technical Report

MotionCtrl: A Unified and Flexible Motion Controller for Video Generation

最近の投稿

最近のコメント

アーカイブ

カテゴリー