cs.CV」カテゴリーアーカイブ

Humanoid Policy ~ Human Policy

要約 さまざまなデータを使用したヒューマノイドロボットのトレーニング操作ポリシー … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | Humanoid Policy ~ Human Policy はコメントを受け付けていません

DPC: Dual-Prompt Collaboration for Tuning Vision-Language Models

要約 ベースニュートレードオフ(BNT)問題は、クリップベースのプロンプトチュー … 続きを読む

カテゴリー: cs.CV | DPC: Dual-Prompt Collaboration for Tuning Vision-Language Models はコメントを受け付けていません

VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning

要約 独自の時間的次元を備えたビデオは、回答が視覚的で解釈可能な証拠に直接リンク … 続きを読む

カテゴリー: cs.AI, cs.CV | VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning はコメントを受け付けていません

MoManipVLA: Transferring Vision-language-action Models for General Mobile Manipulation

要約 モバイル操作は、日常生活における多様なタスクと環境を持つ人間を支援するため … 続きを読む

カテゴリー: cs.CV, cs.RO | MoManipVLA: Transferring Vision-language-action Models for General Mobile Manipulation はコメントを受け付けていません

Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy

要約 多様なロボットデータセットでトレーニングされた最近のビジョン言語アクション … 続きを読む

カテゴリー: cs.CV, cs.RO | Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy はコメントを受け付けていません

Prof. Robot: Differentiable Robot Rendering Without Static and Self-Collisions

要約 微分可能なレンダリングは、ロボット工学の分野で大きな注目を集めており、微分 … 続きを読む

カテゴリー: cs.CV, cs.RO | Prof. Robot: Differentiable Robot Rendering Without Static and Self-Collisions はコメントを受け付けていません

COIN: Confidence Score-Guided Distillation for Annotation-Free Cell Segmentation

要約 細胞インスタンスセグメンテーション(CIS)は、組織病理学的画像の個々の細 … 続きを読む

カテゴリー: cs.CV | COIN: Confidence Score-Guided Distillation for Annotation-Free Cell Segmentation はコメントを受け付けていません

Fast and Robust Localization for Humanoid Soccer Robot via Iterative Landmark Matching

要約 正確なロボットのローカリゼーションは、効果的な操作に不可欠です。 モンテカ … 続きを読む

カテゴリー: cs.CV, cs.RO | Fast and Robust Localization for Humanoid Soccer Robot via Iterative Landmark Matching はコメントを受け付けていません

MoMa-Kitchen: A 100K+ Benchmark for Affordance-Grounded Last-Mile Navigation in Mobile Manipulation

要約 モバイル操作では、ナビゲーションと操作はしばしば別々の問題として扱われ、そ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | MoMa-Kitchen: A 100K+ Benchmark for Affordance-Grounded Last-Mile Navigation in Mobile Manipulation はコメントを受け付けていません

EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks

要約 マルチモーダルの大手言語モデル(MLLM)は、具体化された知性を画期的に進 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks はコメントを受け付けていません