月別アーカイブ: 2025年4月

MS-Occ: Multi-Stage LiDAR-Camera Fusion for 3D Semantic Occupancy Prediction

投稿日: 2025年4月23日作成者: jarxiv

要約正確な3Dセマンティック占有率の認識は、多様で不規則なオブジェクトを備えた … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

RaSCL: Radar to Satellite Crossview Localization

投稿日: 2025年4月23日作成者: jarxiv

要約 GNSSは信頼できず、不正確で、多くのリアルタイムの自律型フィールドアプリ … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

HEMGS: A Hybrid Entropy Model for 3D Gaussian Splatting Data Compression

投稿日: 2025年4月23日作成者: jarxiv

要約この作業では、3Dガウススプラッティング（3DG）データの新しい圧縮フレー … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Ask2Loc: Learning to Locate Instructional Visual Answers by Asking Questions

投稿日: 2025年4月23日作成者: jarxiv

要約指導ビデオ内に特定のセグメントを見つけることは、ガイド知識を習得するための … 続きを読む →

カテゴリー: 68T20, 68T45, cs.AI, cs.CV, cs.HC | コメントを受け付けていません

ViSMaP: Unsupervised Hour-long Video Summarisation by Meta-Prompting

投稿日: 2025年4月23日作成者: jarxiv

要約 VISMAP：監視されていないビデオ要約によるメタプロンプト、1時間の長さ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

A Clinician-Friendly Platform for Ophthalmic Image Analysis Without Technical Barriers

投稿日: 2025年4月23日作成者: jarxiv

要約人工知能（AI）は、医療イメージング診断において顕著な可能性を示しています … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Meta-Entity Driven Triplet Mining for Aligning Medical Vision-Language Models

投稿日: 2025年4月23日作成者: jarxiv

要約診断イメージングは、画像と放射線レポートの両方の解釈に依存していますが … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Benchmarking the Reproducibility of Brain MRI Segmentation Across Scanners and Time

投稿日: 2025年4月23日作成者: jarxiv

要約構造MRIからの正確で再現可能な脳の形態計測は、時間とイメージングドメ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Reasoning Physical Video Generation with Diffusion Timestep Tokens via Reinforcement Learning

投稿日: 2025年4月23日作成者: jarxiv

要約ビデオ生成の最近の進歩にもかかわらず、物理的法則を順守するビデオの制作は依 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation

投稿日: 2025年4月23日作成者: jarxiv

要約プロンプトは、特定のタスクの言語およびビジョンファンデーションモデルの力を … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2025年4月

MS-Occ: Multi-Stage LiDAR-Camera Fusion for 3D Semantic Occupancy Prediction

RaSCL: Radar to Satellite Crossview Localization

HEMGS: A Hybrid Entropy Model for 3D Gaussian Splatting Data Compression

Ask2Loc: Learning to Locate Instructional Visual Answers by Asking Questions

ViSMaP: Unsupervised Hour-long Video Summarisation by Meta-Prompting

A Clinician-Friendly Platform for Ophthalmic Image Analysis Without Technical Barriers

Meta-Entity Driven Triplet Mining for Aligning Medical Vision-Language Models

Benchmarking the Reproducibility of Brain MRI Segmentation Across Scanners and Time

Reasoning Physical Video Generation with Diffusion Timestep Tokens via Reinforcement Learning

Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation

最近の投稿

最近のコメント

アーカイブ

カテゴリー