-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
REN: Fast and Efficient Region Encodings from Patch-Based Image Encoders
要約 ポイントプロンプトを使用して地域ベースの画像表現を生成するための高速かつ効 … 続きを読む
カテゴリー: cs.CV
REN: Fast and Efficient Region Encodings from Patch-Based Image Encoders はコメントを受け付けていません
Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models
要約 強化学習(RL)は、ビジョン言語モデル(VLM)の推論を強化するための効果 … 続きを読む
LaViDa: A Large Diffusion Language Model for Multimodal Understanding
要約 最新のビジョン言語モデル(VLM)は、視覚的な推論を必要とする幅広いタスク … 続きを読む
カテゴリー: cs.CV
LaViDa: A Large Diffusion Language Model for Multimodal Understanding はコメントを受け付けていません
Goal-conditioned dual-action imitation learning for dexterous dual-arm robot manipulation
要約 バナナの剥離などの変形可能なオブジェクトの長距離器用ロボット操作は、オブジ … 続きを読む
RE-TRIP : Reflectivity Instance Augmented Triangle Descriptor for 3D Place Recognition
要約 ほとんどの人は、主に距離を測定し、環境に関する幾何学的な情報を提供する能力 … 続きを読む
VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving
要約 このペーパーでは、自律運転におけるビジョン中心のアルゴリズムのために設計さ … 続きを読む
Strengthening Generative Robot Policies through Predictive World Modeling
要約 (i)専門家のデモンストレーションから生成的拡散ベースのポリシーをクローン … 続きを読む
SEM: Enhancing Spatial Understanding for Robust Robot Manipulation
要約 ロボット操作の重要な課題は、強い空間的理解、3D形状、オブジェクト関係、ロ … 続きを読む
DriveMoE: Mixture-of-Experts for Vision-Language-Action Model in End-to-End Autonomous Driving
要約 エンドツーエンドの自律運転(E2E-AD)には、マルチビュー感覚データの効 … 続きを読む