「cs.CV」カテゴリーアーカイブ

PAPL-SLAM: Principal Axis-Anchored Monocular Point-Line SLAM

投稿日: 2024年10月17日作成者: jarxiv

要約ポイントライン SLAM システムでは、ライン構造情報の利用とラインの最適 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation

投稿日: 2024年10月17日作成者: jarxiv

要約言語ガイドによるロボット操作は、さまざまな複雑な操作タスクを達成するために … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

InterACT: Inter-dependency Aware Action Chunking with Hierarchical Attention Transformers for Bimanual Manipulation

投稿日: 2024年10月17日作成者: jarxiv

要約両手操作には、2 つのロボットアームの調整が複雑であるため、単独作業と比 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

Instruction-Guided Visual Masking

投稿日: 2024年10月17日作成者: jarxiv

要約現代の LLM では、指示に従うことが極めて重要です。ただし、マルチモー … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

AdaCropFollow: Self-Supervised Online Adaptation for Visual Under-Canopy Navigation

投稿日: 2024年10月17日作成者: jarxiv

要約樹冠下の農業用ロボットは、生育期を通じて正確な監視、散布、除草、植物操作作 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

DH-VTON: Deep Text-Driven Virtual Try-On via Hybrid Attention Learning

投稿日: 2024年10月17日作成者: jarxiv

要約 Virtual Try-ON (VTON) は、特定の衣服を着た特定の人物 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Mixture of Experts Made Personalized: Federated Prompt Learning for Vision-Language Models

投稿日: 2024年10月17日作成者: jarxiv

要約 CLIP のような事前トレーニング済み視覚言語モデル (VLM) の迅速な … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Developing Generalist Foundation Models from a Multimodal Dataset for 3D Computed Tomography

投稿日: 2024年10月17日作成者: jarxiv

要約コンピュータービジョンは、マルチモーダルエンコーディングと、チャットベ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

QueensCAMP: an RGB-D dataset for robust Visual SLAM

投稿日: 2024年10月17日作成者: jarxiv

要約 Visual Simultaneous Localization and … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

MambaPainter: Neural Stroke-Based Rendering in a Single Step

投稿日: 2024年10月17日作成者: jarxiv

要約ストロークベースのレンダリングは、ブラシストロークのシーケンスを予測する … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

PAPL-SLAM: Principal Axis-Anchored Monocular Point-Line SLAM

PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation

InterACT: Inter-dependency Aware Action Chunking with Hierarchical Attention Transformers for Bimanual Manipulation

Instruction-Guided Visual Masking

AdaCropFollow: Self-Supervised Online Adaptation for Visual Under-Canopy Navigation

DH-VTON: Deep Text-Driven Virtual Try-On via Hybrid Attention Learning

Mixture of Experts Made Personalized: Federated Prompt Learning for Vision-Language Models

Developing Generalist Foundation Models from a Multimodal Dataset for 3D Computed Tomography

QueensCAMP: an RGB-D dataset for robust Visual SLAM

MambaPainter: Neural Stroke-Based Rendering in a Single Step

最近の投稿

最近のコメント

アーカイブ

カテゴリー