「cs.CV」カテゴリーアーカイブ

Reconstructing People, Places, and Cameras

投稿日: 2024年12月24日作成者: jarxiv

要約我々は、人物をフィーチャーした未校正の多視点画像のまばらなセットから、メー … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Cross-View Referring Multi-Object Tracking

投稿日: 2024年12月24日作成者: jarxiv

要約マルチオブジェクト追跡 (RMOT) の参照は、現在の追跡分野における重要 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Dora: Sampling and Benchmarking for 3D Shape Variational Auto-Encoders

投稿日: 2024年12月24日作成者: jarxiv

要約最近の 3D コンテンツ生成パイプラインは、拡散ベースの生成のために形状を … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

ChatGarment: Garment Estimation, Generation and Editing via Large Language Models

投稿日: 2024年12月24日作成者: jarxiv

要約大規模ビジョン言語モデル (VLM) を活用して、画像やテキストの説明から … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

FaceLift: Single Image to 3D Head with View Generation and GS-LRM

投稿日: 2024年12月24日作成者: jarxiv

要約私たちは、単一の画像から迅速かつ高品質の 360 度の頭部を再構成するため … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

MR-GDINO: Efficient Open-World Continual Object Detection

投稿日: 2024年12月24日作成者: jarxiv

要約オープンワールド (OW) の認識および検出モデルは、ゼロショットおよび少 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

QUART-Online: Latency-Free Large Multimodal Language Model for Quadruped Robot Learning

投稿日: 2024年12月24日作成者: jarxiv

要約このペーパーでは、四足歩行ビジョン言語アクション (QUAR-VLA) タ … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

LiHi-GS: LiDAR-Supervised Gaussian Splatting for Highway Driving Scene Reconstruction

投稿日: 2024年12月23日作成者: jarxiv

要約フォトリアリスティックな 3D シーンの再構築は自動運転において重要な役割 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Toward Appearance-based Autonomous Landing Site Identification for Multirotor Drones in Unstructured Environments

投稿日: 2024年12月23日作成者: jarxiv

要約マルチロータードローン飛行における残りの課題は、構造化されていない環境で実 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

VLM-RL: A Unified Vision Language Models and Reinforcement Learning Framework for Safe Autonomous Driving

投稿日: 2024年12月23日作成者: jarxiv

要約近年、運転ポリシーを学習するための強化学習 (RL) ベースの方法が自動運 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Reconstructing People, Places, and Cameras

Cross-View Referring Multi-Object Tracking

Dora: Sampling and Benchmarking for 3D Shape Variational Auto-Encoders

ChatGarment: Garment Estimation, Generation and Editing via Large Language Models

FaceLift: Single Image to 3D Head with View Generation and GS-LRM

MR-GDINO: Efficient Open-World Continual Object Detection

QUART-Online: Latency-Free Large Multimodal Language Model for Quadruped Robot Learning

LiHi-GS: LiDAR-Supervised Gaussian Splatting for Highway Driving Scene Reconstruction

Toward Appearance-based Autonomous Landing Site Identification for Multirotor Drones in Unstructured Environments

VLM-RL: A Unified Vision Language Models and Reinforcement Learning Framework for Safe Autonomous Driving

最近の投稿

最近のコメント

アーカイブ

カテゴリー