cs.CV」カテゴリーアーカイブ

Tencent Hunyuan3D-1.0: A Unified Framework for Text-to-3D and Image-to-3D Generation

要約 3D 生成モデルはアーティストのワークフローを大幅に改善しましたが、3D … 続きを読む

カテゴリー: cs.AI, cs.CV | Tencent Hunyuan3D-1.0: A Unified Framework for Text-to-3D and Image-to-3D Generation はコメントを受け付けていません

Advancements and limitations of LLMs in replicating human color-word associations

要約 色と単語の関連付けは、人間の認知とデザインの応用において基本的な役割を果た … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.GR, cs.HC | Advancements and limitations of LLMs in replicating human color-word associations はコメントを受け付けていません

PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance

要約 過去 1 年で、ビデオベースの大規模言語モデルが大幅に進歩しました。 ただ … 続きを読む

カテゴリー: cs.CV | PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance はコメントを受け付けていません

Improving Domain Generalization in Self-supervised Monocular Depth Estimation via Stabilized Adversarial Training

要約 自己教師あり単眼深度推定 (MDE) モデルを一般化して学習することは、依 … 続きを読む

カテゴリー: cs.CV | Improving Domain Generalization in Self-supervised Monocular Depth Estimation via Stabilized Adversarial Training はコメントを受け付けていません

GenXD: Generating Any 3D and 4D Scenes

要約 2D ビジュアル生成の最近の開発は目覚ましい成功を収めています。 ただし、 … 続きを読む

カテゴリー: cs.AI, cs.CV | GenXD: Generating Any 3D and 4D Scenes はコメントを受け付けていません

Real-Time Polygonal Semantic Mapping for Humanoid Robot Stair Climbing

要約 階段などの複雑な地形を移動する人型ロボットに合わせて調整された、リアルタイ … 続きを読む

カテゴリー: cs.CV, cs.RO | Real-Time Polygonal Semantic Mapping for Humanoid Robot Stair Climbing はコメントを受け付けていません

S3PT: Scene Semantics and Structure Guided Clustering to Boost Self-Supervised Pre-Training for Autonomous Driving

要約 DINO や Cribo などの最近の自己教師ありクラスタリング ベースの … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | S3PT: Scene Semantics and Structure Guided Clustering to Boost Self-Supervised Pre-Training for Autonomous Driving はコメントを受け付けていません

3D Equivariant Pose Regression via Direct Wigner-D Harmonics Prediction

要約 単一画像姿勢推定と呼ばれる、画像内のオブジェクトの 3D 方向を決定するこ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO, eess.IV | 3D Equivariant Pose Regression via Direct Wigner-D Harmonics Prediction はコメントを受け付けていません

BodySLAM: A Generalized Monocular Visual SLAM Framework for Surgical Applications

要約 内視鏡手術は 2 次元のビューに依存しているため、外科医にとっては深さの認 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | BodySLAM: A Generalized Monocular Visual SLAM Framework for Surgical Applications はコメントを受け付けていません

RaLF: Flow-based Global and Metric Radar Localization in LiDAR Maps

要約 自律ロボットにとってローカリゼーションは最も重要です。 カメラと LiDA … 続きを読む

カテゴリー: cs.CV, cs.RO | RaLF: Flow-based Global and Metric Radar Localization in LiDAR Maps はコメントを受け付けていません