cs.CV」カテゴリーアーカイブ

Karyotype AI for Precision Oncology

要約 細胞分裂の中期段階の顕微鏡画像から直接血液がんを引き起こす染色体異常を正確 … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.IV, q-bio.QM | Karyotype AI for Precision Oncology はコメントを受け付けていません

Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos

要約 大規模なコーパスで事前に訓練された大規模な言語モデルの最近の開発は、微調整 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos はコメントを受け付けていません

SV4D 2.0: Enhancing Spatio-Temporal Consistency in Multi-View Video Diffusion for High-Quality 4D Generation

要約 動的3Dアセット生成のためのマルチビュービデオ拡散モデルであるStable … 続きを読む

カテゴリー: cs.CV | SV4D 2.0: Enhancing Spatio-Temporal Consistency in Multi-View Video Diffusion for High-Quality 4D Generation はコメントを受け付けていません

Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass

要約 マルチビュー3D再構成は、特に多様な視点で正確でスケーラブルな表現を必要と … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.RO | Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass はコメントを受け付けていません

GASP: Unifying Geometric and Semantic Self-Supervised Pre-training for Autonomous Driving

要約 次のトークンの予測に基づいた自己監視の事前トレーニングにより、大規模な言語 … 続きを読む

カテゴリー: cs.CV, cs.RO | GASP: Unifying Geometric and Semantic Self-Supervised Pre-training for Autonomous Driving はコメントを受け付けていません

AutoDrive-QA- Automated Generation of Multiple-Choice Questions for Autonomous Driving Datasets Using Large Vision-Language Models

要約 自律的な運転では、フリーフォームの応答には複雑なメトリックまたは主観的な人 … 続きを読む

カテゴリー: cs.CV, cs.RO | AutoDrive-QA- Automated Generation of Multiple-Choice Questions for Autonomous Driving Datasets Using Large Vision-Language Models はコメントを受け付けていません

UAS Visual Navigation in Large and Unseen Environments via a Meta Agent

要約 この作業の目的は、無人の航空システム(UAS)が大規模な都市環境でナビゲー … 続きを読む

カテゴリー: cs.CV, cs.RO | UAS Visual Navigation in Large and Unseen Environments via a Meta Agent はコメントを受け付けていません

Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos

要約 大規模なコーパスで事前に訓練された大規模な言語モデルの最近の開発は、微調整 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos はコメントを受け付けていません

MG-SLAM: Structure Gaussian Splatting SLAM with Manhattan World Hypothesis

要約 ガウスのスプラットスラムは、リアルタイムの再構築の効率と忠実度を改善する上 … 続きを読む

カテゴリー: cs.CV, cs.RO | MG-SLAM: Structure Gaussian Splatting SLAM with Manhattan World Hypothesis はコメントを受け付けていません

GraspCoT: Integrating Physical Property Reasoning for 6-DoF Grasping under Flexible Language Instructions

要約 柔軟な指導ガイド付き6-DOFグラッピングは、実際のロボットシステムにとっ … 続きを読む

カテゴリー: cs.CV, cs.RO | GraspCoT: Integrating Physical Property Reasoning for 6-DoF Grasping under Flexible Language Instructions はコメントを受け付けていません