「cs.MM」カテゴリーアーカイブ

ALADIN: Distilling Fine-grained Alignment Scores for Efficient Image-Text Matching and Retrieval

投稿日: 2022年8月1日作成者: jarxiv

要約画像とテキストのマッチングは、視覚と言語の共同理解を伴うタスクの中で主導的 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

CubeMLP: A MLP-based Model for Multimodal Sentiment Analysis and Depression Estimation

投稿日: 2022年7月29日作成者: jarxiv

要約マルチモーダル感情分析とうつ病推定は、マルチモーダルデータを使用して人間の … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Content-oriented learned image compression

投稿日: 2022年7月29日作成者: jarxiv

要約近年、ディープニューラルネットワークの開発により、エンドツーエンドで最適化 … 続きを読む →

カテゴリー: cs.CV, cs.MM, eess.IV | コメントを受け付けていません

End-To-End Audiovisual Feature Fusion for Active Speaker Detection

投稿日: 2022年7月28日作成者: jarxiv

要約アクティブスピーカー検出は、人間と機械の相互作用において重要な役割を果たし … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

VICTOR: Visual Incompatibility Detection with Transformers and Fashion-specific contrastive pre-training

投稿日: 2022年7月28日作成者: jarxiv

要約ファッションの服装を美的に心地よいものと見なすためには、それらを構成する衣 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

AutoTransition: Learning to Recommend Video Transition Effects

投稿日: 2022年7月28日作成者: jarxiv

要約ビデオトランジションエフェクトは、ビデオ編集で広く使用されており、ショット … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Video Manipulations Beyond Faces: A Dataset with Human-Machine Analysis

投稿日: 2022年7月28日作成者: jarxiv

要約コンテンツ編集用のツールが成熟し、メディアを合成するための人工知能（AI） … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

Video Manipulations Beyond Faces: A Dataset with Human-Machine Analysis

投稿日: 2022年7月27日作成者: jarxiv

要約コンテンツ編集用のツールが成熟し、メディアを合成するための人工知能（AI） … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

Learned Video Compression via Heterogeneous Deformable Compensation Network

投稿日: 2022年7月25日作成者: jarxiv

要約学習したビデオ圧縮は、動き補償が最も困難な問題の1つと見なされている、高度 … 続きを読む →

カテゴリー: cs.CV, cs.MM, eess.IV | コメントを受け付けていません

Panoptic Scene Graph Generation

投稿日: 2022年7月25日作成者: jarxiv

要約既存の研究では、シーングラフ生成（SGG）（画像のシーンを理解するための重 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

ALADIN: Distilling Fine-grained Alignment Scores for Efficient Image-Text Matching and Retrieval

CubeMLP: A MLP-based Model for Multimodal Sentiment Analysis and Depression Estimation

Content-oriented learned image compression

End-To-End Audiovisual Feature Fusion for Active Speaker Detection

VICTOR: Visual Incompatibility Detection with Transformers and Fashion-specific contrastive pre-training

AutoTransition: Learning to Recommend Video Transition Effects

Video Manipulations Beyond Faces: A Dataset with Human-Machine Analysis

Video Manipulations Beyond Faces: A Dataset with Human-Machine Analysis

Learned Video Compression via Heterogeneous Deformable Compensation Network

Panoptic Scene Graph Generation

最近の投稿

最近のコメント

アーカイブ

カテゴリー