cs.MM」カテゴリーアーカイブ

Cross Modal Compression: Towards Human-comprehensible Semantic Compression

要約 従来の画像・映像圧縮は、信号の忠実度をできるだけ高くして、伝送・保存コスト … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | Cross Modal Compression: Towards Human-comprehensible Semantic Compression はコメントを受け付けていません

Geometry Aligned Variational Transformer for Image-conditioned Layout Generation

要約 レイアウト生成は、物体定位と美的評価の両方の課題を兼ね備えたコンピュータビ … 続きを読む

カテゴリー: cs.CV, cs.MM | Geometry Aligned Variational Transformer for Image-conditioned Layout Generation はコメントを受け付けていません

Confidence-Aware Active Feedback for Interactive Instance Search

要約 オンライン関連性フィードバック(RF)は不完全なランキング結果をさらに洗練 … 続きを読む

カテゴリー: cs.CV, cs.IR, cs.MM | Confidence-Aware Active Feedback for Interactive Instance Search はコメントを受け付けていません

GSRFormer: Grounded Situation Recognition Transformer with Alternate Semantic Attention Refinement

要約 Grounded Situation Recognition (GSR) … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | GSRFormer: Grounded Situation Recognition Transformer with Alternate Semantic Attention Refinement はコメントを受け付けていません

EViT: Privacy-Preserving Image Retrieval via Encrypted Vision Transformer in Cloud Computing

要約 画像検索システムは、ユーザーが大量の画像をリアルタイムで参照および検索する … 続きを読む

カテゴリー: cs.CV, cs.MM | EViT: Privacy-Preserving Image Retrieval via Encrypted Vision Transformer in Cloud Computing はコメントを受け付けていません

Hierarchical Local-Global Transformer for Temporal Sentence Grounding

要約 この論文では、特定の文のクエリに従って、トリミングされていないビデオの特定 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.IR, cs.MM | Hierarchical Local-Global Transformer for Temporal Sentence Grounding はコメントを受け付けていません

PanorAMS: Automatic Annotation for Detecting Objects in Urban Context

要約 地理参照されたパノラマ画像の大規模なコレクションは、世界中の都市で自由に利 … 続きを読む

カテゴリー: cs.CV, cs.MM | PanorAMS: Automatic Annotation for Detecting Objects in Urban Context はコメントを受け付けていません

PanorAMS: Automatic Annotation for Detecting Objects in Urban Context

要約 地理参照されたパノラマ画像の大規模なコレクションは、世界中の都市で自由に利 … 続きを読む

カテゴリー: cs.CV, cs.MM | PanorAMS: Automatic Annotation for Detecting Objects in Urban Context はコメントを受け付けていません

Deep Decomposition and Bilinear Pooling Network for Blind Night-Time Image Quality Evaluation

要約 元の参照情報なしで画質を正確に予測することを目的としたブラインド画質評価 … 続きを読む

カテゴリー: cs.CV, cs.MM | Deep Decomposition and Bilinear Pooling Network for Blind Night-Time Image Quality Evaluation はコメントを受け付けていません

Partially Relevant Video Retrieval

要約 テキストからビデオへの検索 (T2VR) の現在の方法は、MSVD、MSR … 続きを読む

カテゴリー: cs.CV, cs.MM | Partially Relevant Video Retrieval はコメントを受け付けていません