cs.CV」カテゴリーアーカイブ

REN: Fast and Efficient Region Encodings from Patch-Based Image Encoders

要約 ポイントプロンプトを使用して地域ベースの画像表現を生成するための高速かつ効 … 続きを読む

カテゴリー: cs.CV | REN: Fast and Efficient Region Encodings from Patch-Based Image Encoders はコメントを受け付けていません

Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models

要約 強化学習(RL)は、ビジョン言語モデル(VLM)の推論を強化するための効果 … 続きを読む

カテゴリー: cs.AI, cs.CV | Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models はコメントを受け付けていません

LaViDa: A Large Diffusion Language Model for Multimodal Understanding

要約 最新のビジョン言語モデル(VLM)は、視覚的な推論を必要とする幅広いタスク … 続きを読む

カテゴリー: cs.CV | LaViDa: A Large Diffusion Language Model for Multimodal Understanding はコメントを受け付けていません

Goal-conditioned dual-action imitation learning for dexterous dual-arm robot manipulation

要約 バナナの剥離などの変形可能なオブジェクトの長距離器用ロボット操作は、オブジ … 続きを読む

カテゴリー: cs.CV, cs.RO | Goal-conditioned dual-action imitation learning for dexterous dual-arm robot manipulation はコメントを受け付けていません

RE-TRIP : Reflectivity Instance Augmented Triangle Descriptor for 3D Place Recognition

要約 ほとんどの人は、主に距離を測定し、環境に関する幾何学的な情報を提供する能力 … 続きを読む

カテゴリー: cs.CV, cs.RO | RE-TRIP : Reflectivity Instance Augmented Triangle Descriptor for 3D Place Recognition はコメントを受け付けていません

VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving

要約 このペーパーでは、自律運転におけるビジョン中心のアルゴリズムのために設計さ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving はコメントを受け付けていません

Strengthening Generative Robot Policies through Predictive World Modeling

要約 (i)専門家のデモンストレーションから生成的拡散ベースのポリシーをクローン … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | Strengthening Generative Robot Policies through Predictive World Modeling はコメントを受け付けていません

SEM: Enhancing Spatial Understanding for Robust Robot Manipulation

要約 ロボット操作の重要な課題は、強い空間的理解、3D形状、オブジェクト関係、ロ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | SEM: Enhancing Spatial Understanding for Robust Robot Manipulation はコメントを受け付けていません

DriveMoE: Mixture-of-Experts for Vision-Language-Action Model in End-to-End Autonomous Driving

要約 エンドツーエンドの自律運転(E2E-AD)には、マルチビュー感覚データの効 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | DriveMoE: Mixture-of-Experts for Vision-Language-Action Model in End-to-End Autonomous Driving はコメントを受け付けていません

Provable Ordering and Continuity in Vision-Language Pretraining for Generalizable Embodied Agents

要約 人間のアクションビデオに関するトレーニング前のビジョン言語表現は、具体化さ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Provable Ordering and Continuity in Vision-Language Pretraining for Generalizable Embodied Agents はコメントを受け付けていません