「cs.MM」カテゴリーアーカイブ

Emotion4MIDI: a Lyrics-based Emotion-Labeled Symbolic Music Dataset

投稿日: 2023年7月28日作成者: jarxiv

要約 12,000 の MIDI 曲から構成される新しい大規模な感情ラベル付き象 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, eess.AS | コメントを受け付けていません

Sample Less, Learn More: Efficient Action Recognition via Frame Feature Restoration

投稿日: 2023年7月28日作成者: jarxiv

要約効果的なビデオアクション認識モデルをトレーニングするには、特に限られたリソ … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Self-Supervised Visual Acoustic Matching

投稿日: 2023年7月28日作成者: jarxiv

要約音響マッチングの目的は、オーディオクリップを再合成して、ターゲットの音響 … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

SAS Video-QA: Self-Adaptive Sampling for Efficient Video Question-Answering

投稿日: 2023年7月27日作成者: jarxiv

要約ビデオの質問と回答は、ビデオ理解の分野における基本的なタスクです。 Vid … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

WavJourney: Compositional Audio Creation with Large Language Models

投稿日: 2023年7月27日作成者: jarxiv

要約大規模言語モデル (LLM) は、複雑な言語と視覚のタスクに取り組むために … 続きを読む →

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

A semantics-driven methodology for high-quality image annotation

投稿日: 2023年7月27日作成者: jarxiv

要約機械学習とコンピュータービジョンの最近の研究では、グラウンドトゥルース … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

Spectrum-guided Multi-granularity Referring Video Object Segmentation

投稿日: 2023年7月26日作成者: jarxiv

要約現在の参照ビデオオブジェクトセグメンテーション (R-VOS) 技術は … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

VERITE: A Robust Benchmark for Multimodal Misinformation Detection Accounting for Unimodal Bias

投稿日: 2023年7月24日作成者: jarxiv

要約マルチメディアコンテンツがソーシャルメディアプラットフォーム上で遍在 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Positive-Augmented Contrastive Learning for Image and Video Captioning Evaluation

投稿日: 2023年7月21日作成者: jarxiv

要約 CLIP モデルは、視覚と言語のアーキテクチャから生成されたキャプションの … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Meta-Transformer: A Unified Framework for Multimodal Learning

投稿日: 2023年7月21日作成者: jarxiv

要約マルチモーダル学習は、複数のモダリティからの情報を処理して関連付けることが … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

Emotion4MIDI: a Lyrics-based Emotion-Labeled Symbolic Music Dataset

Sample Less, Learn More: Efficient Action Recognition via Frame Feature Restoration

Self-Supervised Visual Acoustic Matching

SAS Video-QA: Self-Adaptive Sampling for Efficient Video Question-Answering

WavJourney: Compositional Audio Creation with Large Language Models

A semantics-driven methodology for high-quality image annotation

Spectrum-guided Multi-granularity Referring Video Object Segmentation

VERITE: A Robust Benchmark for Multimodal Misinformation Detection Accounting for Unimodal Bias

Positive-Augmented Contrastive Learning for Image and Video Captioning Evaluation

Meta-Transformer: A Unified Framework for Multimodal Learning

最近の投稿

最近のコメント

アーカイブ

カテゴリー