「cs.MM」カテゴリーアーカイブ

EViT: Privacy-Preserving Image Retrieval via Encrypted Vision Transformer in Cloud Computing

投稿日: 2022年9月1日作成者: jarxiv

要約画像検索システムは、ユーザーが大量の画像をリアルタイムで参照および検索する … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Hierarchical Local-Global Transformer for Temporal Sentence Grounding

投稿日: 2022年9月1日作成者: jarxiv

要約この論文では、特定の文のクエリに従って、トリミングされていないビデオの特定 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.IR, cs.MM | コメントを受け付けていません

PanorAMS: Automatic Annotation for Detecting Objects in Urban Context

投稿日: 2022年9月1日作成者: jarxiv

要約地理参照されたパノラマ画像の大規模なコレクションは、世界中の都市で自由に利 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

PanorAMS: Automatic Annotation for Detecting Objects in Urban Context

投稿日: 2022年8月31日作成者: jarxiv

要約地理参照されたパノラマ画像の大規模なコレクションは、世界中の都市で自由に利 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Deep Decomposition and Bilinear Pooling Network for Blind Night-Time Image Quality Evaluation

投稿日: 2022年8月30日作成者: jarxiv

要約元の参照情報なしで画質を正確に予測することを目的としたブラインド画質評価 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Partially Relevant Video Retrieval

投稿日: 2022年8月29日作成者: jarxiv

要約テキストからビデオへの検索 (T2VR) の現在の方法は、MSVD、MSR … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning

投稿日: 2022年8月29日作成者: jarxiv

要約クロスモーダル検索の分野における最近の開発にもかかわらず、手動で注釈を付け … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Late multimodal fusion for image and audio music transcription

投稿日: 2022年8月29日作成者: jarxiv

要約音楽ソースを構造化されたデジタル形式に変換する音楽のトランスクリプションは … 続きを読む →

カテゴリー: cs.CV, cs.IR, cs.MM, cs.SD, eess.AS, I.4 | コメントを受け付けていません

Learned Lossless JPEG Transcoding via Joint Lossy and Residual Compression

投稿日: 2022年8月25日作成者: jarxiv

要約一般的に使用される画像圧縮形式として、JPEG は画像の送信と保存に広く適 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Retrieval-Augmented Transformer for Image Captioning

投稿日: 2022年8月23日作成者: jarxiv

要約画像キャプションモデルは、入力画像の自然言語による説明を提供することで、 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

EViT: Privacy-Preserving Image Retrieval via Encrypted Vision Transformer in Cloud Computing

Hierarchical Local-Global Transformer for Temporal Sentence Grounding

PanorAMS: Automatic Annotation for Detecting Objects in Urban Context

PanorAMS: Automatic Annotation for Detecting Objects in Urban Context

Deep Decomposition and Bilinear Pooling Network for Blind Night-Time Image Quality Evaluation

Partially Relevant Video Retrieval

Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning

Late multimodal fusion for image and audio music transcription

Learned Lossless JPEG Transcoding via Joint Lossy and Residual Compression

Retrieval-Augmented Transformer for Image Captioning

最近の投稿

最近のコメント

アーカイブ

カテゴリー