cs.MM」カテゴリーアーカイブ

Proposal-Free Temporal Action Detection via Global Segmentation Mask Learning

要約 既存の時間アクション検出 (TAD) メソッドは、ビデオごとに圧倒的に多数 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | Proposal-Free Temporal Action Detection via Global Segmentation Mask Learning はコメントを受け付けていません

Causal Reasoning Meets Visual Representation Learning: A Prospective Study

要約 視覚表現学習は、視覚理解、ビデオ理解、マルチモーダル分析、ヒューマン コン … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | Causal Reasoning Meets Visual Representation Learning: A Prospective Study はコメントを受け付けていません

GSRFormer: Grounded Situation Recognition Transformer with Alternate Semantic Attention Refinement

要約 Grounded Situation Recognition (GSR) … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | GSRFormer: Grounded Situation Recognition Transformer with Alternate Semantic Attention Refinement はコメントを受け付けていません

Efficient Multimodal Transformer with Dual-Level Feature Restoration for Robust Multimodal Sentiment Analysis

要約 ユーザーが作成したオンライン動画の急増に伴い、マルチモーダル感情分析 (M … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM | Efficient Multimodal Transformer with Dual-Level Feature Restoration for Robust Multimodal Sentiment Analysis はコメントを受け付けていません

Exploiting Transformation Invariance and Equivariance for Self-supervised Sound Localisation

要約 ビデオの音源をローカライズするために、オーディオビジュアル表現学習のための … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Exploiting Transformation Invariance and Equivariance for Self-supervised Sound Localisation はコメントを受け付けていません

A Unified Image Preprocessing Framework For Image Compression

要約 ストリーミング メディア テクノロジーの発展に伴い、音声と視覚情報に依存す … 続きを読む

カテゴリー: cs.CV, cs.MM | A Unified Image Preprocessing Framework For Image Compression はコメントを受け付けていません

Learning from Label Relationships in Human Affect

要約 自動化された方法での人間の影響と精神状態の推定は、多くの困難に直面します。 … 続きを読む

カテゴリー: cs.CV, cs.HC, cs.MM | Learning from Label Relationships in Human Affect はコメントを受け付けていません

Late multimodal fusion for image and audio music transcription

要約 音楽ソースを構造化されたデジタル形式に変換する音楽のトランスクリプションは … 続きを読む

カテゴリー: cs.CV, cs.IR, cs.MM, cs.SD, eess.AS, I.4 | Late multimodal fusion for image and audio music transcription はコメントを受け付けていません

PPMN: Pixel-Phrase Matching Network for One-Stage Panoptic Narrative Grounding

要約 PNG(Panoptic Narrative Grounding)は、静止 … 続きを読む

カテゴリー: cs.CV, cs.MM | PPMN: Pixel-Phrase Matching Network for One-Stage Panoptic Narrative Grounding はコメントを受け付けていません

PSUMNet: Unified Modality Part Streams are All You Need for Efficient Pose-based Action Recognition

要約 ポーズに基づくアクション認識は、入力スケルトンをモノリシックに扱うアプロー … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.MM | PSUMNet: Unified Modality Part Streams are All You Need for Efficient Pose-based Action Recognition はコメントを受け付けていません