cs.MM」カテゴリーアーカイブ

Multi-modal Robustness Analysis Against Language and Visual Perturbations

要約 大規模データセットにおける視覚と言語の統合モデリングは、単一モード学習と比 … 続きを読む

カテゴリー: cs.CV, cs.MM | Multi-modal Robustness Analysis Against Language and Visual Perturbations はコメントを受け付けていません

Dynamic Contrastive Distillation for Image-Text Retrieval

要約 視覚言語プリトレーニング(VLP)を用いたクロスモーダル画像テキスト検索( … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Dynamic Contrastive Distillation for Image-Text Retrieval はコメントを受け付けていません

Causal Reasoning Meets Visual Representation Learning: A Prospective Study

要約 視覚表現学習は、視覚理解、映像理解、マルチモーダル解析、ヒューマンコンピュ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | Causal Reasoning Meets Visual Representation Learning: A Prospective Study はコメントを受け付けていません

(Un)likelihood Training for Interpretable Embedding

要約 クロスモーダル表現学習は、テキストデータと視覚データの間の意味的ギャップを … 続きを読む

カテゴリー: cs.CV, cs.IR, cs.MM | (Un)likelihood Training for Interpretable Embedding はコメントを受け付けていません

Ray-Space Motion Compensation for Lenslet Plenoptic Video Coding

要約 情報量の多いプレノプティック画像や映像は、膨大なデータ保存量と高い伝送コス … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | Ray-Space Motion Compensation for Lenslet Plenoptic Video Coding はコメントを受け付けていません

CONVIQT: Contrastive Video Quality Estimator

要約 知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラッ … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | CONVIQT: Contrastive Video Quality Estimator はコメントを受け付けていません

TranSalNet: Towards perceptually relevant visual saliency prediction

要約 トランスフォーマーを使用した視覚的顕著性予測-畳み込みニューラルネットワー … 続きを読む

カテゴリー: cs.CV, cs.MM | TranSalNet: Towards perceptually relevant visual saliency prediction はコメントを受け付けていません

Bi-VLDoc: Bidirectional Vision-Language Modeling for Visually-Rich Document Understanding

要約 マルチモーダルドキュメントの事前トレーニング済みモデルは、さまざまな視覚的 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | Bi-VLDoc: Bidirectional Vision-Language Modeling for Visually-Rich Document Understanding はコメントを受け付けていません

Winning the CVPR’2022 AQTC Challenge: A Two-stage Function-centric Approach

要約 エゴセントリックアシスタント(AQTC)のアフォーダンス中心の質問駆動型タ … 続きを読む

カテゴリー: cs.CV, cs.MM | Winning the CVPR’2022 AQTC Challenge: A Two-stage Function-centric Approach はコメントを受け付けていません

Rethinking Audio-visual Synchronization for Active Speaker Detection

要約 アクティブスピーカー検出(ASD)システムは、マルチトーカーの会話を分析す … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | Rethinking Audio-visual Synchronization for Active Speaker Detection はコメントを受け付けていません