「cs.CV」カテゴリーアーカイブ

REN: Fast and Efficient Region Encodings from Patch-Based Image Encoders

投稿日: 2025年5月26日作成者: jarxiv

要約ポイントプロンプトを使用して地域ベースの画像表現を生成するための高速かつ効 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models

投稿日: 2025年5月26日作成者: jarxiv

要約強化学習（RL）は、ビジョン言語モデル（VLM）の推論を強化するための効果 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

LaViDa: A Large Diffusion Language Model for Multimodal Understanding

投稿日: 2025年5月26日作成者: jarxiv

要約最新のビジョン言語モデル（VLM）は、視覚的な推論を必要とする幅広いタスク … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Goal-conditioned dual-action imitation learning for dexterous dual-arm robot manipulation

投稿日: 2025年5月23日作成者: jarxiv

要約バナナの剥離などの変形可能なオブジェクトの長距離器用ロボット操作は、オブジ … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

RE-TRIP : Reflectivity Instance Augmented Triangle Descriptor for 3D Place Recognition

投稿日: 2025年5月23日作成者: jarxiv

要約ほとんどの人は、主に距離を測定し、環境に関する幾何学的な情報を提供する能力 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving

投稿日: 2025年5月23日作成者: jarxiv

要約このペーパーでは、自律運転におけるビジョン中心のアルゴリズムのために設計さ … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

Strengthening Generative Robot Policies through Predictive World Modeling

投稿日: 2025年5月23日作成者: jarxiv

要約（i）専門家のデモンストレーションから生成的拡散ベースのポリシーをクローン … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

SEM: Enhancing Spatial Understanding for Robust Robot Manipulation

投稿日: 2025年5月23日作成者: jarxiv

要約ロボット操作の重要な課題は、強い空間的理解、3D形状、オブジェクト関係、ロ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

DriveMoE: Mixture-of-Experts for Vision-Language-Action Model in End-to-End Autonomous Driving

投稿日: 2025年5月23日作成者: jarxiv

要約エンドツーエンドの自律運転（E2E-AD）には、マルチビュー感覚データの効 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

Provable Ordering and Continuity in Vision-Language Pretraining for Generalizable Embodied Agents

投稿日: 2025年5月23日作成者: jarxiv

要約人間のアクションビデオに関するトレーニング前のビジョン言語表現は、具体化さ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

REN: Fast and Efficient Region Encodings from Patch-Based Image Encoders

Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models

LaViDa: A Large Diffusion Language Model for Multimodal Understanding

Goal-conditioned dual-action imitation learning for dexterous dual-arm robot manipulation

RE-TRIP : Reflectivity Instance Augmented Triangle Descriptor for 3D Place Recognition

VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving

Strengthening Generative Robot Policies through Predictive World Modeling

SEM: Enhancing Spatial Understanding for Robust Robot Manipulation

DriveMoE: Mixture-of-Experts for Vision-Language-Action Model in End-to-End Autonomous Driving

Provable Ordering and Continuity in Vision-Language Pretraining for Generalizable Embodied Agents

最近の投稿

最近のコメント

アーカイブ

カテゴリー