cs.CV」カテゴリーアーカイブ

UniWorld: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation

要約 既存の統一モデルは、視覚言語理解やテキストから画像への生成では高い性能を発 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | UniWorld: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation はコメントを受け付けていません

FlySearch: Exploring how vision-language models explore

要約 現実の世界は混乱しており、構造化されていない。重要な情報を発見するためには … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | FlySearch: Exploring how vision-language models explore はコメントを受け付けていません

VR-Robo: A Real-to-Sim-to-Real Framework for Visual Robot Navigation and Locomotion

要約 脚式ロボットのロコモーションにおける最近の成功は、強化学習と物理シミュレー … 続きを読む

カテゴリー: cs.CV, cs.RO | VR-Robo: A Real-to-Sim-to-Real Framework for Visual Robot Navigation and Locomotion はコメントを受け付けていません

Grasp2Grasp: Vision-Based Dexterous Grasp Translation via Schrödinger Bridges

要約 我々は、視覚に基づく器用な把持変換の新しいアプローチを提案する。このアプロ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | Grasp2Grasp: Vision-Based Dexterous Grasp Translation via Schrödinger Bridges はコメントを受け付けていません

HiLO: High-Level Object Fusion for Autonomous Driving using Transformers

要約 センサデータのフュージョンは、自律走行におけるロバストな環境認識のために不 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | HiLO: High-Level Object Fusion for Autonomous Driving using Transformers はコメントを受け付けていません

BEVCALIB: LiDAR-Camera Calibration via Geometry-Guided Bird’s-Eye View Representations

要約 正確なLiDAR-カメラキャリブレーションは、自律走行やロボットシステムに … 続きを読む

カテゴリー: cs.CV, cs.RO | BEVCALIB: LiDAR-Camera Calibration via Geometry-Guided Bird’s-Eye View Representations はコメントを受け付けていません

Rodrigues Network for Learning Robot Actions

要約 ロボットの学習において、多関節動作の理解と予測は重要である。しかし、MLP … 続きを読む

カテゴリー: cs.CV, cs.RO | Rodrigues Network for Learning Robot Actions はコメントを受け付けていません

GeneA-SLAM2: Dynamic SLAM with AutoEncoder-Preprocessed Genetic Keypoints Resampling and Depth Variance-Guided Dynamic Region Removal

要約 動的環境における既存のセマンティックSLAMは、主に物体検出またはセマンテ … 続きを読む

カテゴリー: cs.CV, cs.RO | GeneA-SLAM2: Dynamic SLAM with AutoEncoder-Preprocessed Genetic Keypoints Resampling and Depth Variance-Guided Dynamic Region Removal はコメントを受け付けていません

X-Driver: Explainable Autonomous Driving with Vision-Language Models

要約 エンド・ツー・エンドの自律走行は著しく進歩しており、従来のパイプラインより … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.ET, cs.RO | X-Driver: Explainable Autonomous Driving with Vision-Language Models はコメントを受け付けていません

Self-supervised Learning of Event-guided Video Frame Interpolation for Rolling Shutter Frames

要約 ほとんどの民生用カメラはローリングシャッター(RS)露光を使用しているため … 続きを読む

カテゴリー: cs.CV, cs.RO | Self-supervised Learning of Event-guided Video Frame Interpolation for Rolling Shutter Frames はコメントを受け付けていません