「cs.MM」カテゴリーアーカイブ

Video Background Music Generation: Dataset, Method and Evaluation

投稿日: 2023年8月7日作成者: jarxiv

要約動画編集に音楽は欠かせないが、手作業で選曲するのは難しく、時間もかかる。そ … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Towards Explainable In-the-Wild Video Quality Assessment: A Database and a Language-Prompted Approach

投稿日: 2023年8月4日作成者: jarxiv

要約自然界における映像の普及は、映像品質評価（VQA）の問題を大きく拡大した。 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM | コメントを受け付けていません

LaDI-VTON: Latent Diffusion Textual-Inversion Enhanced Virtual Try-On

投稿日: 2023年8月4日作成者: jarxiv

要約急速に進化するeコマースやメタバース分野では、消費者体験を向上させる革新的 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

Beyond Generic: Enhancing Image Captioning with Real-World Knowledge using Vision-Language Pre-Training Model

投稿日: 2023年8月3日作成者: jarxiv

要約現在のキャプション手法は、名前付きエンティティやコンテキスト情報など、現実 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Contrast-augmented Diffusion Model with Fine-grained Sequence Alignment for Markup-to-Image Generation

投稿日: 2023年8月3日作成者: jarxiv

要約最近増加しているマークアップからイメージへの生成は、エラーに対する許容度が … 続きを読む →

カテゴリー: cs.CV, cs.MM, eess.IV | コメントを受け付けていません

ZRIGF: An Innovative Multimodal Framework for Zero-Resource Image-Grounded Dialogue Generation

投稿日: 2023年8月3日作成者: jarxiv

要約画像ベースの対話システムは、視覚情報を統合することで大きな恩恵を受け、高品 … 続きを読む →

カテゴリー: cs.CL, cs.MM | コメントを受け付けていません

Multi-Modality Multi-Loss Fusion Network

投稿日: 2023年8月2日作成者: jarxiv

要約この研究では、複数のモダリティにわたる特徴の最適な選択と融合を調査し、これ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM | コメントを受け付けていません

Few-shot Multimodal Sentiment Analysis based on Multimodal Probabilistic Fusion Prompts

投稿日: 2023年8月2日作成者: jarxiv

要約ソーシャルメディア上でのマルチモーダルコンテンツの急増により、マルチモーダ … 続きを読む →

カテゴリー: cs.CL, cs.MM | コメントを受け付けていません

ZRIGF: An Innovative Multimodal Framework for Zero-Resource Image-Grounded Dialogue Generation

投稿日: 2023年8月2日作成者: jarxiv

要約画像ベースの対話システムは、視覚情報を統合することで大きな恩恵を受け、高品 … 続きを読む →

カテゴリー: cs.CL, cs.MM | コメントを受け付けていません

Continual Multimodal Knowledge Graph Construction

投稿日: 2023年8月2日作成者: jarxiv

要約マルチモーダルナレッジグラフ構築 (MKGC) には、テキストや画像な … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.DB, cs.LG, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

Video Background Music Generation: Dataset, Method and Evaluation

Towards Explainable In-the-Wild Video Quality Assessment: A Database and a Language-Prompted Approach

LaDI-VTON: Latent Diffusion Textual-Inversion Enhanced Virtual Try-On

Beyond Generic: Enhancing Image Captioning with Real-World Knowledge using Vision-Language Pre-Training Model

Contrast-augmented Diffusion Model with Fine-grained Sequence Alignment for Markup-to-Image Generation

ZRIGF: An Innovative Multimodal Framework for Zero-Resource Image-Grounded Dialogue Generation

Multi-Modality Multi-Loss Fusion Network

Few-shot Multimodal Sentiment Analysis based on Multimodal Probabilistic Fusion Prompts

ZRIGF: An Innovative Multimodal Framework for Zero-Resource Image-Grounded Dialogue Generation

Continual Multimodal Knowledge Graph Construction

最近の投稿

最近のコメント

アーカイブ

カテゴリー