-
最近の投稿
- Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards
- OrbitGrasp: $SE(3)$-Equivariant Grasp Learning
- M3Bench: Benchmarking Whole-body Motion Generation for Mobile Manipulation in 3D Scenes
- Self-Supervised Learning For Robust Robotic Grasping In Dynamic Environment
- Routing and Scheduling Optimization for Urban Air Mobility Fleet Management using Quantum Annealing
-
最近のコメント
表示できるコメントはありません。 cs.AI (28126) cs.CL (21249) cs.CR (2197) cs.CV (34799) cs.LG (32858) cs.RO (16174) cs.SY (2496) eess.IV (4244) eess.SY (2490) stat.ML (4401)
「cs.MM」カテゴリーアーカイブ
Multi-modal Robustness Analysis Against Language and Visual Perturbations
要約 大規模データセットにおける視覚と言語の統合モデリングは、単一モード学習と比 … 続きを読む
Dynamic Contrastive Distillation for Image-Text Retrieval
要約 視覚言語プリトレーニング(VLP)を用いたクロスモーダル画像テキスト検索( … 続きを読む
Causal Reasoning Meets Visual Representation Learning: A Prospective Study
要約 視覚表現学習は、視覚理解、映像理解、マルチモーダル解析、ヒューマンコンピュ … 続きを読む
(Un)likelihood Training for Interpretable Embedding
要約 クロスモーダル表現学習は、テキストデータと視覚データの間の意味的ギャップを … 続きを読む
Ray-Space Motion Compensation for Lenslet Plenoptic Video Coding
要約 情報量の多いプレノプティック画像や映像は、膨大なデータ保存量と高い伝送コス … 続きを読む
CONVIQT: Contrastive Video Quality Estimator
要約 知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラッ … 続きを読む
TranSalNet: Towards perceptually relevant visual saliency prediction
要約 トランスフォーマーを使用した視覚的顕著性予測-畳み込みニューラルネットワー … 続きを読む
Bi-VLDoc: Bidirectional Vision-Language Modeling for Visually-Rich Document Understanding
要約 マルチモーダルドキュメントの事前トレーニング済みモデルは、さまざまな視覚的 … 続きを読む
Winning the CVPR’2022 AQTC Challenge: A Two-stage Function-centric Approach
要約 エゴセントリックアシスタント(AQTC)のアフォーダンス中心の質問駆動型タ … 続きを読む