-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「I.2.10」カテゴリーアーカイブ
Memory-Efficient Differentially Private Training with Gradient Random Projection
要約 差動プライバシー(DP)は、ニューラルネットワークトレーニング中に機密デー … 続きを読む
SuperPoint-SLAM3: Augmenting ORB-SLAM3 with Deep Features, Adaptive NMS, and Learning-Based Loop Closure
要約 視覚的な同時ローカリゼーションとマッピング(SLAM)は、極端な視点、スケ … 続きを読む
CausalVQA: A Physically Grounded Causal Reasoning Benchmark for Video Models
要約 物理世界での因果関係のモデルの理解をプローブする質問回答ペアで構成されるビ … 続きを読む
Kvasir-VQA-x1: A Multimodal Dataset for Medical Reasoning and Robust MedVQA in Gastrointestinal Endoscopy
要約 医学的視覚的質問応答(MEDVQA)は、臨床的意思決定支援システムを開発す … 続きを読む
Taking Flight with Dialogue: Enabling Natural Language Control for PX4-based Drone Agent
要約 エージェントおよび物理的人工知能(AI)の最近の進歩は、ヒューマノイドや車 … 続きを読む
RONA: Pragmatically Diverse Image Captioning with Coherence Relations
要約 ライティングアシスタント(Grammarly、Microsoft Copi … 続きを読む
CORDIAL: Can Multimodal Large Language Models Effectively Understand Coherence Relationships?
要約 マルチモーダル大手言語モデル(MLLM)は、多様な問題ドメイン全体で優れた … 続きを読む
OWMM-Agent: Open World Mobile Manipulation With Multi-modal Agentic Data Synthesis
要約 ナビゲーション、操作、およびビジョンモデルの急速な進歩により、多くの特殊な … 続きを読む
ReasonPlan: Unified Scene Prediction and Decision Reasoning for Closed-loop Autonomous Driving
要約 強力なビジョン言語の推論と一般化能力により、マルチモーダルの大手言語モデル … 続きを読む
カテゴリー: 68T40(Primary), 68T45, 68T50(Secondary), cs.AI, cs.CV, cs.RO, I.2.10
ReasonPlan: Unified Scene Prediction and Decision Reasoning for Closed-loop Autonomous Driving はコメントを受け付けていません