cs.CV」カテゴリーアーカイブ

Reconstructing People, Places, and Cameras

要約 我々は、人物をフィーチャーした未校正の多視点画像のまばらなセットから、メー … 続きを読む

カテゴリー: cs.CV | Reconstructing People, Places, and Cameras はコメントを受け付けていません

Cross-View Referring Multi-Object Tracking

要約 マルチオブジェクト追跡 (RMOT) の参照は、現在の追跡分野における重要 … 続きを読む

カテゴリー: cs.AI, cs.CV | Cross-View Referring Multi-Object Tracking はコメントを受け付けていません

Dora: Sampling and Benchmarking for 3D Shape Variational Auto-Encoders

要約 最近の 3D コンテンツ生成パイプラインは、拡散ベースの生成のために形状を … 続きを読む

カテゴリー: cs.CV | Dora: Sampling and Benchmarking for 3D Shape Variational Auto-Encoders はコメントを受け付けていません

ChatGarment: Garment Estimation, Generation and Editing via Large Language Models

要約 大規模ビジョン言語モデル (VLM) を活用して、画像やテキストの説明から … 続きを読む

カテゴリー: cs.CV | ChatGarment: Garment Estimation, Generation and Editing via Large Language Models はコメントを受け付けていません

FaceLift: Single Image to 3D Head with View Generation and GS-LRM

要約 私たちは、単一の画像から迅速かつ高品質の 360 度の頭部を再構成するため … 続きを読む

カテゴリー: cs.CV, cs.GR | FaceLift: Single Image to 3D Head with View Generation and GS-LRM はコメントを受け付けていません

MR-GDINO: Efficient Open-World Continual Object Detection

要約 オープンワールド (OW) の認識および検出モデルは、ゼロショットおよび少 … 続きを読む

カテゴリー: cs.CV | MR-GDINO: Efficient Open-World Continual Object Detection はコメントを受け付けていません

QUART-Online: Latency-Free Large Multimodal Language Model for Quadruped Robot Learning

要約 このペーパーでは、四足歩行ビジョン言語アクション (QUAR-VLA) タ … 続きを読む

カテゴリー: cs.CV, cs.RO | QUART-Online: Latency-Free Large Multimodal Language Model for Quadruped Robot Learning はコメントを受け付けていません

LiHi-GS: LiDAR-Supervised Gaussian Splatting for Highway Driving Scene Reconstruction

要約 フォトリアリスティックな 3D シーンの再構築は自動運転において重要な役割 … 続きを読む

カテゴリー: cs.CV, cs.RO | LiHi-GS: LiDAR-Supervised Gaussian Splatting for Highway Driving Scene Reconstruction はコメントを受け付けていません

Toward Appearance-based Autonomous Landing Site Identification for Multirotor Drones in Unstructured Environments

要約 マルチロータードローン飛行における残りの課題は、構造化されていない環境で実 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | Toward Appearance-based Autonomous Landing Site Identification for Multirotor Drones in Unstructured Environments はコメントを受け付けていません

VLM-RL: A Unified Vision Language Models and Reinforcement Learning Framework for Safe Autonomous Driving

要約 近年、運転ポリシーを学習するための強化学習 (RL) ベースの方法が自動運 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | VLM-RL: A Unified Vision Language Models and Reinforcement Learning Framework for Safe Autonomous Driving はコメントを受け付けていません