-
最近の投稿
- Human-Robot Dialogue Annotation for Multi-Modal Common Ground
- Anticipatory Planning for Performant Long-Lived Robot in Large-Scale Home-Like Environments
- SCOUT: A Situated and Multi-Modal Human-Robot Dialogue Corpus
- Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting
- ForestAlign: Automatic Forest Structure-based Alignment for Multi-view TLS and ALS Point Clouds
-
最近のコメント
表示できるコメントはありません。 cs.AI (29925) cs.CL (22599) cs.CR (2321) cs.CV (36300) cs.LG (34746) cs.RO (17366) cs.SY (2670) eess.IV (4416) eess.SY (2664) stat.ML (4635)
「cs.CV」カテゴリーアーカイブ
Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting
要約 3D ガウス スプラッティング (3DGS) を使用したロボット マニピュ … 続きを読む
VADet: Multi-frame LiDAR 3D Object Detection using Variable Aggregation
要約 入力集約は、最先端の LiDAR 3D 物体検出器が検出を向上させるために … 続きを読む
MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes
要約 画像やビデオの制御可能な生成モデルは目覚ましい成功を収めていますが、3D … 続きを読む
Intensity-Spatial Dual Masked Autoencoder for Multi-Scale Feature Learning in Chest CT Segmentation
要約 医療画像セグメンテーションの分野では、不明瞭な病変の特徴、曖昧な境界、マル … 続きを読む
An Integrated Approach to Robotic Object Grasping and Manipulation
要約 倉庫業務における手作業と効率化という増大する課題に対応して、Amazon … 続きを読む
ViSTa Dataset: Do vision-language models understand sequential tasks?
要約 強化学習の報酬モデルとしてビジョン言語モデル (VLM) を使用すると、コ … 続きを読む
VAST: Vivify Your Talking Avatar via Zero-Shot Expressive Facial Style Transfer
要約 現在の話し顔の生成方法は、主に音声と口の同期に焦点を当てています。 しかし … 続きを読む
Occlusion-Aware Seamless Segmentation
要約 パノラマ画像は視野 (FoV) を広げることができ、オクルージョンを意識し … 続きを読む
XMask3D: Cross-modal Mask Reasoning for Open Vocabulary 3D Semantic Segmentation
要約 オープンボキャブラリーの 3D セマンティック セグメンテーションにおける … 続きを読む