「cs.CV」カテゴリーアーカイブ

Tencent Hunyuan3D-1.0: A Unified Framework for Text-to-3D and Image-to-3D Generation

投稿日: 2024年11月6日作成者: jarxiv

要約 3D 生成モデルはアーティストのワークフローを大幅に改善しましたが、3D … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Advancements and limitations of LLMs in replicating human color-word associations

投稿日: 2024年11月6日作成者: jarxiv

要約色と単語の関連付けは、人間の認知とデザインの応用において基本的な役割を果た … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.GR, cs.HC | コメントを受け付けていません

PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance

投稿日: 2024年11月6日作成者: jarxiv

要約過去 1 年で、ビデオベースの大規模言語モデルが大幅に進歩しました。ただ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Improving Domain Generalization in Self-supervised Monocular Depth Estimation via Stabilized Adversarial Training

投稿日: 2024年11月6日作成者: jarxiv

要約自己教師あり単眼深度推定 (MDE) モデルを一般化して学習することは、依 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

GenXD: Generating Any 3D and 4D Scenes

投稿日: 2024年11月6日作成者: jarxiv

要約 2D ビジュアル生成の最近の開発は目覚ましい成功を収めています。ただし、 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Real-Time Polygonal Semantic Mapping for Humanoid Robot Stair Climbing

投稿日: 2024年11月5日作成者: jarxiv

要約階段などの複雑な地形を移動する人型ロボットに合わせて調整された、リアルタイ … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

S3PT: Scene Semantics and Structure Guided Clustering to Boost Self-Supervised Pre-Training for Autonomous Driving

投稿日: 2024年11月5日作成者: jarxiv

要約 DINO や Cribo などの最近の自己教師ありクラスタリングベースの … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

3D Equivariant Pose Regression via Direct Wigner-D Harmonics Prediction

投稿日: 2024年11月5日作成者: jarxiv

要約単一画像姿勢推定と呼ばれる、画像内のオブジェクトの 3D 方向を決定するこ … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO, eess.IV | コメントを受け付けていません

BodySLAM: A Generalized Monocular Visual SLAM Framework for Surgical Applications

投稿日: 2024年11月5日作成者: jarxiv

要約内視鏡手術は 2 次元のビューに依存しているため、外科医にとっては深さの認 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

RaLF: Flow-based Global and Metric Radar Localization in LiDAR Maps

投稿日: 2024年11月5日作成者: jarxiv

要約自律ロボットにとってローカリゼーションは最も重要です。カメラと LiDA … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Tencent Hunyuan3D-1.0: A Unified Framework for Text-to-3D and Image-to-3D Generation

Advancements and limitations of LLMs in replicating human color-word associations

PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance

Improving Domain Generalization in Self-supervised Monocular Depth Estimation via Stabilized Adversarial Training

GenXD: Generating Any 3D and 4D Scenes

Real-Time Polygonal Semantic Mapping for Humanoid Robot Stair Climbing

S3PT: Scene Semantics and Structure Guided Clustering to Boost Self-Supervised Pre-Training for Autonomous Driving

3D Equivariant Pose Regression via Direct Wigner-D Harmonics Prediction

BodySLAM: A Generalized Monocular Visual SLAM Framework for Surgical Applications

RaLF: Flow-based Global and Metric Radar Localization in LiDAR Maps

最近の投稿

最近のコメント

アーカイブ

カテゴリー