-
最近の投稿
- Towards Generalizable Vision-Language Robotic Manipulation: A Benchmark and LLM-guided 3D Policy
- Haptic-ACT: Bridging Human Intuition with Compliant Robotic Manipulation via Immersive VR
- Task-Aware Robotic Grasping by evaluating Quality Diversity Solutions through Foundation Models
- VDT-Auto: End-to-end Autonomous Driving with VLM-Guided Diffusion Transformers
- ViViDex: Learning Vision-based Dexterous Manipulation from Human Videos
-
最近のコメント
表示できるコメントはありません。 cs.AI (34550) cs.CL (26107) cs.CR (2648) cs.CV (40394) cs.LG (39550) cs.RO (20191) cs.SY (3066) eess.IV (4803) eess.SY (3060) stat.ML (5206)
月別アーカイブ: 2022年9月
Contrastive Unsupervised Learning of World Model with Invariant Causal Features
要約 この論文では、不変性原理を使用して因果的特徴を学習する世界モデルを提示しま … 続きを読む
EDA: Explicit Text-Decoupling and Dense Alignment for 3D Visual and Language Learning
要約 3D ビジュアル グラウンディングは、豊富なセマンティック コンポーネント … 続きを読む
EiHi Net: Out-of-Distribution Generalization Paradigm
要約 この論文では、深層学習における分布外 (OoD) 一般化問題を解決するため … 続きを読む
DirectTracker: 3D Multi-Object Tracking Using Direct Image Alignment and Photometric Bundle Adjustment
要約 直接法は、ビジュアル オドメトリと SLAM のアプリケーションで優れたパ … 続きを読む
カテゴリー: cs.CV
DirectTracker: 3D Multi-Object Tracking Using Direct Image Alignment and Photometric Bundle Adjustment はコメントを受け付けていません
DreamFusion: Text-to-3D using 2D Diffusion
要約 テキストから画像への合成における最近のブレークスルーは、何十億もの画像とテ … 続きを読む
REST: REtrieve & Self-Train for generative action recognition
要約 この作業は、生成的なアクション/ビデオ認識モデルのトレーニングに関するもの … 続きを読む
Dilated Neighborhood Attention Transformer
要約 トランスフォーマーは、モダリティ、ドメイン、およびタスク全体で最も頻繁に適 … 続きを読む
Effective Vision Transformer Training: A Data-Centric Perspective
要約 ビジョン トランスフォーマー (ViT) は、畳み込みニューラル ネットワ … 続きを読む
カテゴリー: cs.CV
Effective Vision Transformer Training: A Data-Centric Perspective はコメントを受け付けていません
Understanding Collapse in Non-Contrastive Learning
要約 対照的な方法により、自己教師あり表現学習 (SSL) のパフォーマンスが最 … 続きを読む
Training Strategies for Improved Lip-reading
要約 いくつかのトレーニング戦略と時間モデルは、一連の独立した研究で孤立した単語 … 続きを読む