cs.MM」カテゴリーアーカイブ

Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning

要約 クロスモーダル検索の分野における最近の開発にもかかわらず、手動で注釈を付け … 続きを読む

カテゴリー: cs.CV, cs.MM | Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning はコメントを受け付けていません

Late multimodal fusion for image and audio music transcription

要約 音楽ソースを構造化されたデジタル形式に変換する音楽のトランスクリプションは … 続きを読む

カテゴリー: cs.CV, cs.IR, cs.MM, cs.SD, eess.AS, I.4 | Late multimodal fusion for image and audio music transcription はコメントを受け付けていません

Learned Lossless JPEG Transcoding via Joint Lossy and Residual Compression

要約 一般的に使用される画像圧縮形式として、JPEG は画像の送信と保存に広く適 … 続きを読む

カテゴリー: cs.CV, cs.MM | Learned Lossless JPEG Transcoding via Joint Lossy and Residual Compression はコメントを受け付けていません

Retrieval-Augmented Transformer for Image Captioning

要約 画像キャプション モデルは、入力画像の自然言語による説明を提供することで、 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Retrieval-Augmented Transformer for Image Captioning はコメントを受け付けていません

Proposal-Free Temporal Action Detection via Global Segmentation Mask Learning

要約 既存の時間アクション検出 (TAD) メソッドは、ビデオごとに圧倒的に多数 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | Proposal-Free Temporal Action Detection via Global Segmentation Mask Learning はコメントを受け付けていません

Causal Reasoning Meets Visual Representation Learning: A Prospective Study

要約 視覚表現学習は、視覚理解、ビデオ理解、マルチモーダル分析、ヒューマン コン … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | Causal Reasoning Meets Visual Representation Learning: A Prospective Study はコメントを受け付けていません

GSRFormer: Grounded Situation Recognition Transformer with Alternate Semantic Attention Refinement

要約 Grounded Situation Recognition (GSR) … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | GSRFormer: Grounded Situation Recognition Transformer with Alternate Semantic Attention Refinement はコメントを受け付けていません

Efficient Multimodal Transformer with Dual-Level Feature Restoration for Robust Multimodal Sentiment Analysis

要約 ユーザーが作成したオンライン動画の急増に伴い、マルチモーダル感情分析 (M … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM | Efficient Multimodal Transformer with Dual-Level Feature Restoration for Robust Multimodal Sentiment Analysis はコメントを受け付けていません

Exploiting Transformation Invariance and Equivariance for Self-supervised Sound Localisation

要約 ビデオの音源をローカライズするために、オーディオビジュアル表現学習のための … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Exploiting Transformation Invariance and Equivariance for Self-supervised Sound Localisation はコメントを受け付けていません

A Unified Image Preprocessing Framework For Image Compression

要約 ストリーミング メディア テクノロジーの発展に伴い、音声と視覚情報に依存す … 続きを読む

カテゴリー: cs.CV, cs.MM | A Unified Image Preprocessing Framework For Image Compression はコメントを受け付けていません