「cs.CV」カテゴリーアーカイブ

Humanoid Policy ~ Human Policy

投稿日: 2025年3月18日作成者: jarxiv

要約さまざまなデータを使用したヒューマノイドロボットのトレーニング操作ポリシー … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

DPC: Dual-Prompt Collaboration for Tuning Vision-Language Models

投稿日: 2025年3月18日作成者: jarxiv

要約ベースニュートレードオフ（BNT）問題は、クリップベースのプロンプトチュー … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning

投稿日: 2025年3月18日作成者: jarxiv

要約独自の時間的次元を備えたビデオは、回答が視覚的で解釈可能な証拠に直接リンク … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

MoManipVLA: Transferring Vision-language-action Models for General Mobile Manipulation

投稿日: 2025年3月18日作成者: jarxiv

要約モバイル操作は、日常生活における多様なタスクと環境を持つ人間を支援するため … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy

投稿日: 2025年3月18日作成者: jarxiv

要約多様なロボットデータセットでトレーニングされた最近のビジョン言語アクション … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Prof. Robot: Differentiable Robot Rendering Without Static and Self-Collisions

投稿日: 2025年3月18日作成者: jarxiv

要約微分可能なレンダリングは、ロボット工学の分野で大きな注目を集めており、微分 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

COIN: Confidence Score-Guided Distillation for Annotation-Free Cell Segmentation

投稿日: 2025年3月18日作成者: jarxiv

要約細胞インスタンスセグメンテーション（CIS）は、組織病理学的画像の個々の細 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Fast and Robust Localization for Humanoid Soccer Robot via Iterative Landmark Matching

投稿日: 2025年3月17日作成者: jarxiv

要約正確なロボットのローカリゼーションは、効果的な操作に不可欠です。モンテカ … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

MoMa-Kitchen: A 100K+ Benchmark for Affordance-Grounded Last-Mile Navigation in Mobile Manipulation

投稿日: 2025年3月17日作成者: jarxiv

要約モバイル操作では、ナビゲーションと操作はしばしば別々の問題として扱われ、そ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks

投稿日: 2025年3月17日作成者: jarxiv

要約マルチモーダルの大手言語モデル（MLLM）は、具体化された知性を画期的に進 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Humanoid Policy ~ Human Policy

DPC: Dual-Prompt Collaboration for Tuning Vision-Language Models

VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning

MoManipVLA: Transferring Vision-language-action Models for General Mobile Manipulation

Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy

Prof. Robot: Differentiable Robot Rendering Without Static and Self-Collisions

COIN: Confidence Score-Guided Distillation for Annotation-Free Cell Segmentation

Fast and Robust Localization for Humanoid Soccer Robot via Iterative Landmark Matching

MoMa-Kitchen: A 100K+ Benchmark for Affordance-Grounded Last-Mile Navigation in Mobile Manipulation

EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks

最近の投稿

最近のコメント

アーカイブ

カテゴリー