-
最近の投稿
- Towards Generalizable Vision-Language Robotic Manipulation: A Benchmark and LLM-guided 3D Policy
- Haptic-ACT: Bridging Human Intuition with Compliant Robotic Manipulation via Immersive VR
- Task-Aware Robotic Grasping by evaluating Quality Diversity Solutions through Foundation Models
- VDT-Auto: End-to-end Autonomous Driving with VLM-Guided Diffusion Transformers
- ViViDex: Learning Vision-based Dexterous Manipulation from Human Videos
-
最近のコメント
表示できるコメントはありません。 cs.AI (34550) cs.CL (26107) cs.CR (2648) cs.CV (40394) cs.LG (39550) cs.RO (20191) cs.SY (3066) eess.IV (4803) eess.SY (3060) stat.ML (5206)
「cs.AI」カテゴリーアーカイブ
Optimal Brain Apoptosis
要約 畳み込みニューラルネットワーク(CNN)とトランスフォーマーの複雑化とパラ … 続きを読む
HiLo: A Learning Framework for Generalized Category Discovery Robust to Domain Shifts
要約 一般化カテゴリー発見(GCD:Generalized Category D … 続きを読む
NavRAG: Generating User Demand Instructions for Embodied Navigation through Retrieval-Augmented LLM
要約 Vision-and-Language Navigation (VLN)は … 続きを読む
Text-driven Adaptation of Foundation Models for Few-shot Surgical Workflow Analysis
要約 目的:手術ワークフローの解析は、手術の効率と安全性を向上させるために極めて … 続きを読む
Evaluating Intelligence via Trial and Error
要約 知能は、限られた回数の試行錯誤の中で解決策を見出す種にとって重要な特性であ … 続きを読む
StarVid: Enhancing Semantic Alignment in Video Diffusion Models via Spatial and SynTactic Guided Attention Refocusing
要約 拡散モデルを用いたテキスト映像(T2V)生成における最近の進歩は、大きな注 … 続きを読む
Atomas: Hierarchical Alignment on Molecule-Text for Unified Molecule Understanding and Generation
要約 分子・テキスト横断的表現学習は、分子表現の質を向上させ、それによって様々な … 続きを読む
The PanAf-FGBG Dataset: Understanding the Impact of Backgrounds in Wildlife Behaviour Recognition
要約 捕獲された行動は個体群の健康状態の変化を示す最も早い指標となるため、カメラ … 続きを読む
Foundation Models — A Panacea for Artificial Intelligence in Pathology?
要約 病理診断における人工知能(AI)の役割は、診断の補助から、全スライド画像( … 続きを読む
ECLeKTic: a Novel Challenge Set for Evaluation of Cross-Lingual Knowledge Transfer
要約 言語間で公平なパフォーマンスを達成するためには、多言語大規模言語モデル(L … 続きを読む