「cs.MM」カテゴリーアーカイブ

Proposal-Free Temporal Action Detection via Global Segmentation Mask Learning

投稿日: 2022年8月22日作成者: jarxiv

要約既存の時間アクション検出 (TAD) メソッドは、ビデオごとに圧倒的に多数 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Causal Reasoning Meets Visual Representation Learning: A Prospective Study

投稿日: 2022年8月19日作成者: jarxiv

要約視覚表現学習は、視覚理解、ビデオ理解、マルチモーダル分析、ヒューマンコン … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

GSRFormer: Grounded Situation Recognition Transformer with Alternate Semantic Attention Refinement

投稿日: 2022年8月19日作成者: jarxiv

要約 Grounded Situation Recognition (GSR) … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Efficient Multimodal Transformer with Dual-Level Feature Restoration for Robust Multimodal Sentiment Analysis

投稿日: 2022年8月17日作成者: jarxiv

要約ユーザーが作成したオンライン動画の急増に伴い、マルチモーダル感情分析 (M … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Exploiting Transformation Invariance and Equivariance for Self-supervised Sound Localisation

投稿日: 2022年8月16日作成者: jarxiv

要約ビデオの音源をローカライズするために、オーディオビジュアル表現学習のための … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

A Unified Image Preprocessing Framework For Image Compression

投稿日: 2022年8月16日作成者: jarxiv

要約ストリーミングメディアテクノロジーの発展に伴い、音声と視覚情報に依存す … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Learning from Label Relationships in Human Affect

投稿日: 2022年8月16日作成者: jarxiv

要約自動化された方法での人間の影響と精神状態の推定は、多くの困難に直面します。 … 続きを読む →

カテゴリー: cs.CV, cs.HC, cs.MM | コメントを受け付けていません

Late multimodal fusion for image and audio music transcription

投稿日: 2022年8月15日作成者: jarxiv

要約音楽ソースを構造化されたデジタル形式に変換する音楽のトランスクリプションは … 続きを読む →

カテゴリー: cs.CV, cs.IR, cs.MM, cs.SD, eess.AS, I.4 | コメントを受け付けていません

PPMN: Pixel-Phrase Matching Network for One-Stage Panoptic Narrative Grounding

投稿日: 2022年8月12日作成者: jarxiv

要約 PNG（Panoptic Narrative Grounding）は、静止 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

PSUMNet: Unified Modality Part Streams are All You Need for Efficient Pose-based Action Recognition

投稿日: 2022年8月12日作成者: jarxiv

要約ポーズに基づくアクション認識は、入力スケルトンをモノリシックに扱うアプロー … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

Proposal-Free Temporal Action Detection via Global Segmentation Mask Learning

Causal Reasoning Meets Visual Representation Learning: A Prospective Study

GSRFormer: Grounded Situation Recognition Transformer with Alternate Semantic Attention Refinement

Efficient Multimodal Transformer with Dual-Level Feature Restoration for Robust Multimodal Sentiment Analysis

Exploiting Transformation Invariance and Equivariance for Self-supervised Sound Localisation

A Unified Image Preprocessing Framework For Image Compression

Learning from Label Relationships in Human Affect

Late multimodal fusion for image and audio music transcription

PPMN: Pixel-Phrase Matching Network for One-Stage Panoptic Narrative Grounding

PSUMNet: Unified Modality Part Streams are All You Need for Efficient Pose-based Action Recognition

最近の投稿

最近のコメント

アーカイブ

カテゴリー