cs.CV」カテゴリーアーカイブ

A Dataset and Benchmark for Shape Completion of Fruits for Agricultural Robotics

要約 世界人口は2050年までに100億に達すると予想されているため、農業部門の … 続きを読む

カテゴリー: cs.CV, cs.RO | A Dataset and Benchmark for Shape Completion of Fruits for Agricultural Robotics はコメントを受け付けていません

FRNet: Frustum-Range Networks for Scalable LiDAR Segmentation

要約 LIDARセグメンテーションは、高度な自律運転システムの重要な要素になって … 続きを読む

カテゴリー: cs.CV, cs.RO | FRNet: Frustum-Range Networks for Scalable LiDAR Segmentation はコメントを受け付けていません

A lightweight model FDM-YOLO for small target improvement based on YOLOv8

要約 小さなターゲットは、ピクセルのカウントが低い、複雑な背景、さまざまな撮影角 … 続きを読む

カテゴリー: cs.CV | A lightweight model FDM-YOLO for small target improvement based on YOLOv8 はコメントを受け付けていません

TPC: Cross-Temporal Prediction Connection for Vision-Language Model Hallucination Reduction

要約 ビジョン言語モデル(VLM)は、多様なタスク全体の大規模な言語モデル(LL … 続きを読む

カテゴリー: cs.AI, cs.CV | TPC: Cross-Temporal Prediction Connection for Vision-Language Model Hallucination Reduction はコメントを受け付けていません

Question-Aware Gaussian Experts for Audio-Visual Question Answering

要約 視聴覚質問応答(AVQA)には、質問に基づいたマルチモーダル推論だけでなく … 続きを読む

カテゴリー: cs.CV | Question-Aware Gaussian Experts for Audio-Visual Question Answering はコメントを受け付けていません

Gate-Shift-Pose: Enhancing Action Recognition in Sports with Skeleton Information

要約 このペーパーでは、RGBフレームと一緒にスケルトンポーズデータを統合するこ … 続きを読む

カテゴリー: cs.CV | Gate-Shift-Pose: Enhancing Action Recognition in Sports with Skeleton Information はコメントを受け付けていません

ForestLPR: LiDAR Place Recognition in Forests Attentioning Multiple BEV Density Images

要約 場所の認識は、大規模なローカリゼーションシステムのグローバルな一貫性を維持 … 続きを読む

カテゴリー: cs.CV, cs.RO | ForestLPR: LiDAR Place Recognition in Forests Attentioning Multiple BEV Density Images はコメントを受け付けていません

MobileViM: A Light-weight and Dimension-independent Vision Mamba for 3D Medical Image Analysis

要約 3次元(3D)医療画像の効率的な評価は、ヘルスケアにおける診断慣行および治 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.NI | MobileViM: A Light-weight and Dimension-independent Vision Mamba for 3D Medical Image Analysis はコメントを受け付けていません

Semantic Alignment of Unimodal Medical Text and Vision Representations

要約 一般的なAIモデル、特にテキストとビジョンのために設計されたモデルは、幅広 … 続きを読む

カテゴリー: cs.CV | Semantic Alignment of Unimodal Medical Text and Vision Representations はコメントを受け付けていません

Mocap-2-to-3: Lifting 2D Diffusion-Based Pretrained Models for 3D Motion Capture

要約 単眼のビューから世界座標系で絶対的なポーズを回復することは、重要な課題をも … 続きを読む

カテゴリー: cs.CV | Mocap-2-to-3: Lifting 2D Diffusion-Based Pretrained Models for 3D Motion Capture はコメントを受け付けていません