- 
最近の投稿- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
 
- 
最近のコメント表示できるコメントはありません。
- cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830) 
「cs.AI」カテゴリーアーカイブ
Progressive Prompt Detailing for Improved Alignment in Text-to-Image Generative Models
要約 テキストからイメージへの生成モデルは、しばしば複雑なシーン、明確な視覚的特 … 続きを読む
DiG-Net: Enhancing Quality of Life through Hyper-Range Dynamic Gesture Recognition in Assistive Robotics
要約 ダイナミックハンドジェスチャーは、特にモビリティの制約を備えた個人や操作ロ … 続きを読む
VideoCAD: A Large-Scale Video Dataset for Learning UI Interactions and 3D Reasoning from CAD Software
要約 コンピューター支援設計(CAD)は、時間のかかる複雑なプロセスであり、複雑 … 続きを読む
Vision LLMs Are Bad at Hierarchical Visual Understanding, and LLMs Are the Bottleneck
要約 このペーパーでは、最先端の大規模な言語モデル(LLM)が私たちの視覚的世界 … 続きを読む
Time Blindness: Why Video-Language Models Can’t See What Humans Can?
要約 ビジョン言語モデル(VLM)の最近の進歩は、ビデオで時空間的関係を理解する … 続きを読む
ProxyThinker: Test-Time Guidance through Small Visual Reasoners
要約 検証可能な報酬による強化学習の最近の進歩により、大規模なビジョン言語モデル … 続きを読む
Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents
要約 Captchasは、実際のアプリケーションにWebエージェントを展開するた … 続きを読む
Keyed Chaotic Masking: A Functional Privacy Framework for Neural Inference
要約 この作業では、暗号化されたカオスダイナミカルシステムに由来する決定論的でユ … 続きを読む
Semantic Exploration and Dense Mapping of Complex Environments using Ground Robots Equipped with LiDAR and Panoramic Camera
要約 このペーパーでは、Lidar-Panoramic Camera Suite … 続きを読む
CoordField: Coordination Field for Agentic UAV Task Allocation In Low-altitude Urban Scenarios
要約 都市環境で複雑なタスクを実行するために不均一な無人航空機(UAV)の群れに … 続きを読む
