-
最近の投稿
- DLPO: Towards a Robust, Efficient, and Generalizable Prompt Optimization Framework from a Deep-Learning Perspective
- MAC: A Benchmark for Multiple Attributes Compositional Zero-Shot Learning
- MaTVLM: Hybrid Mamba-Transformer for Efficient Vision-Language Modeling
- TSCMamba: Mamba Meets Multi-View Learning for Time Series Classification
- Population Transformer: Learning Population-level Representations of Neural Activity
-
最近のコメント
表示できるコメントはありません。 cs.AI (35244) cs.CL (26645) cs.CR (2697) cs.CV (41083) cs.LG (40233) cs.RO (20717) cs.SY (3143) eess.IV (4856) eess.SY (3137) stat.ML (5283)
「cs.RO」カテゴリーアーカイブ
ECBench: Can Multi-modal Foundation Models Understand the Egocentric World? A Holistic Embodied Cognition Benchmark
要約 大規模な視覚言語モデル(LVLMS)によるロボットの一般化の強化がますます … 続きを読む
Mapless Collision-Free Flight via MPC using Dual KD-Trees in Cluttered Environments
要約 散らかった環境での衝突のない飛行は、自律的な四角体にとって重要な機能です。 … 続きを読む
GS-SDF: LiDAR-Augmented Gaussian Splatting and Neural SDF for Geometrically Consistent Rendering and Reconstruction
要約 デジタル双子は、自律運転と具体化された人工知能の開発の基本です。 ただし、 … 続きを読む
PRISM: Preference Refinement via Implicit Scene Modeling for 3D Vision-Language Preference-Based Reinforcement Learning
要約 3Dポイントクラウドモデリングと将来の認識の好みの改良を統合することにより … 続きを読む
Long-horizon Embodied Planning with Implicit Logical Inference and Hallucination Mitigation
要約 長距離具体化された計画は、具体化されたAIを支えています。 長老のタスクを … 続きを読む
SCOOP: A Framework for Proactive Collaboration and Social Continual Learning through Natural Language Interaction andCausal Reasoning
要約 動的環境でユーザーがAIと協力するマルチモーダル情報収集設定は、ますます一 … 続きを読む
Efficient End-to-End 6-Dof Grasp Detection Framework for Edge Devices with Hierarchical Heatmaps and Feature Propagation
要約 6-dof grasp検出は、オブジェクトを把握するための実行可能なロボッ … 続きを読む
PhysVLM: Enabling Visual Language Models to Understand Robotic Physical Reachability
要約 環境とロボットの物理的な到達可能性を理解することは、タスクの実行に不可欠で … 続きを読む
SurgRAW: Multi-Agent Workflow with Chain-of-Thought Reasoning for Surgical Intelligence
要約 外科的知能における視覚言語モデル(VLM)の統合は、幻覚、ドメインの知識の … 続きを読む