-
最近の投稿
- Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards
- OrbitGrasp: $SE(3)$-Equivariant Grasp Learning
- M3Bench: Benchmarking Whole-body Motion Generation for Mobile Manipulation in 3D Scenes
- Self-Supervised Learning For Robust Robotic Grasping In Dynamic Environment
- Routing and Scheduling Optimization for Urban Air Mobility Fleet Management using Quantum Annealing
-
最近のコメント
表示できるコメントはありません。 cs.AI (28126) cs.CL (21249) cs.CR (2197) cs.CV (34799) cs.LG (32858) cs.RO (16174) cs.SY (2496) eess.IV (4244) eess.SY (2490) stat.ML (4401)
「cs.MM」カテゴリーアーカイブ
Bi-Calibration Networks for Weakly-Supervised Video Representation Learning
要約 検索されたクエリまたは周囲のテキスト(タイトルなど)と組み合わせた大量のW … 続きを読む
Grounded Language-Image Pre-training
要約 このホワイトペーパーでは、オブジェクトレベル、言語認識、およびセマンティッ … 続きを読む
whu-nercms at trecvid2021:instance search task
要約 論文のTRECVID2021でWHU-NERCMSの実験方法と結果を簡単に … 続きを読む
Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product Retrieval
要約 この研究の目標は、細粒度の製品カテゴリに対して、弱教師ありマルチモーダルイ … 続きを読む
SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning
要約 3D環境向けのオンザフライのジオメトリベースのオーディオレンダリング用のプ … 続きを読む
AVATAR: Unconstrained Audiovisual Speech Recognition
要約 視聴覚自動音声認識(AV-ASR)は、ASRの拡張機能であり、多くの場合、 … 続きを読む
Variable Bitrate Neural Fields
要約 符号付き距離関数や放射輝度フィールドなどのスカラーフィールドとベクトルフィ … 続きを読む
Comprehending and Ordering Semantics for Image Captioning
要約 画像の豊富なセマンティクスを理解し、それらを言語順に並べることは、画像のキ … 続きを読む
Stand-Alone Inter-Frame Attention in Video Models
要約 ビデオの独自性としてのモーションは、ビデオ理解モデルの開発に不可欠です。 … 続きを読む
Silver-Bullet-3D at ManiSkill 2021: Learning-from-Demonstrations and Heuristic Rule-based Methods for Object Manipulation
要約 このホワイトペーパーでは、SAPIEN ManiSkill Challen … 続きを読む