「cs.MM」カテゴリーアーカイブ

GMMFormer: Gaussian-Mixture-Model Based Transformer for Efficient Partially Relevant Video Retrieval

投稿日: 2024年1月4日作成者: jarxiv

要約テキストクエリが与えられた場合、部分関連ビデオ検索（PRVR）は、適切な瞬 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.IR, cs.MM | コメントを受け付けていません

WordArt Designer API: User-Driven Artistic Typography Synthesis with Large Language Models on ModelScope

投稿日: 2024年1月4日作成者: jarxiv

要約本稿では、ModelScope上の大規模言語モデル（Large Langu … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM | コメントを受け付けていません

VGA: Vision and Graph Fused Attention Network for Rumor Detection

投稿日: 2024年1月4日作成者: jarxiv

要約ソーシャルメディアの発達に伴い、噂はソーシャルメディア上で広く拡散され、社 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SI | コメントを受け付けていません

New Job, New Gender? Measuring the Social Bias in Image Generation Models

投稿日: 2024年1月3日作成者: jarxiv

要約画像生成モデルは、指定されたテキストから画像を生成または編集できます。 D … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM, cs.SE | コメントを受け付けていません

NU-Class Net: A Novel Deep Learning-based Approach for Video Quality Enhancement

投稿日: 2024年1月3日作成者: jarxiv

要約ビデオコンテンツの人気は急増しており、インターネットトラフィックやモノ … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

RS5M and GeoRSCLIP: A Large Scale Vision-Language Dataset and A Large Vision-Language Model for Remote Sensing

投稿日: 2024年1月3日作成者: jarxiv

要約広範な画像とテキストのペアデータを利用した事前トレーニング済み視覚言語モデ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

A Survey on Super Resolution for video Enhancement Using GAN

投稿日: 2024年1月2日作成者: jarxiv

要約さまざまな研究論文のハイライトをまとめたこの本は、敵対的生成ネットワークな … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM, eess.IV | コメントを受け付けていません

Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level Vision

投稿日: 2024年1月2日作成者: jarxiv

要約マルチモダリティ大規模言語モデル (MLLM) の急速な進化により、コンピ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

AQUALLM: Audio Question Answering Data Generation Using Large Language Models

投稿日: 2024年1月1日作成者: jarxiv

要約音声質問応答 (AQA) は、機械が音声信号と自然言語の質問の両方を分析し … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS, I.2.7 | コメントを受け付けていません

CARAT: Contrastive Feature Reconstruction and Aggregation for Multi-modal Multi-label Emotion Recognition

投稿日: 2024年1月1日作成者: jarxiv

要約マルチモーダルマルチラベル感情認識 (MMER) は、複数のモダリティか … 続きを読む →

カテゴリー: cs.AI, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

GMMFormer: Gaussian-Mixture-Model Based Transformer for Efficient Partially Relevant Video Retrieval

WordArt Designer API: User-Driven Artistic Typography Synthesis with Large Language Models on ModelScope

VGA: Vision and Graph Fused Attention Network for Rumor Detection

New Job, New Gender? Measuring the Social Bias in Image Generation Models

NU-Class Net: A Novel Deep Learning-based Approach for Video Quality Enhancement

RS5M and GeoRSCLIP: A Large Scale Vision-Language Dataset and A Large Vision-Language Model for Remote Sensing

A Survey on Super Resolution for video Enhancement Using GAN

Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level Vision

AQUALLM: Audio Question Answering Data Generation Using Large Language Models

CARAT: Contrastive Feature Reconstruction and Aggregation for Multi-modal Multi-label Emotion Recognition

最近の投稿

最近のコメント

アーカイブ

カテゴリー