「cs.CV」カテゴリーアーカイブ

Zero-Shot Medical Phrase Grounding with Off-the-shelf Diffusion Models

投稿日: 2025年1月31日作成者: jarxiv

要約特定の医療スキャンで正確な病理学的領域を局在することは、従来、大量の境界の … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

CHaRNet: Conditioned Heatmap Regression for Robust Dental Landmark Localization

投稿日: 2025年1月31日作成者: jarxiv

要約 3D歯科モデルでの解剖学的ランドマークを特定することは、矯正治療に不可欠で … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Boosting Weak Positives for Text Based Person Search

投稿日: 2025年1月31日作成者: jarxiv

要約大規模なビジョン言語モデルは、クロスモーダルオブジェクトの検索に革命をもた … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Efficient Interactive 3D Multi-Object Removal

投稿日: 2025年1月31日作成者: jarxiv

要約オブジェクトの削除は、3Dシーンの理解にとって非常に重要であり、コンテンツ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

ContourFormer:Real-Time Contour-Based End-to-End Instance Segmentation Transformer

投稿日: 2025年1月31日作成者: jarxiv

要約このペーパーでは、リアルタイムの輪郭ベースのインスタンスセグメンテーション … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Competency-Aware Planning for Probabilistically Safe Navigation Under Perception Uncertainty

投稿日: 2025年1月30日作成者: jarxiv

要約知覚ベースのナビゲーションシステムは、従来の深度ベースのナビゲーションスキ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO, cs.SY, eess.SY | コメントを受け付けていません

Benchmark Evaluations, Applications, and Challenges of Large Vision Language Models: A Survey

投稿日: 2025年1月30日作成者: jarxiv

要約マルチモーダルビジョン言語モデル（VLM）は、コンピュータービジョンと自然 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

Deciphering the Definition of Adversarial Robustness for post-hoc OOD Detectors

投稿日: 2025年1月30日作成者: jarxiv

要約分散除外（OOD）入力の検出は、実際のシナリオに深い学習モデルを安全に展開 … 続きを読む →

カテゴリー: cs.CR, cs.CV | コメントを受け付けていません

When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding

投稿日: 2025年1月30日作成者: jarxiv

要約既存のコーデックは、固有の冗長性を排除して、圧縮のためのコンパクトな表現を … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

SIGN: A Statistically-Informed Gaze Network for Gaze Time Prediction

投稿日: 2025年1月30日作成者: jarxiv

要約画像上の総視線時間を予測するために、統計的に情報に基づいた視線ネットワーク … 続きを読む →

カテゴリー: cs.CV, stat.AP | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Zero-Shot Medical Phrase Grounding with Off-the-shelf Diffusion Models

CHaRNet: Conditioned Heatmap Regression for Robust Dental Landmark Localization

Boosting Weak Positives for Text Based Person Search

Efficient Interactive 3D Multi-Object Removal

ContourFormer:Real-Time Contour-Based End-to-End Instance Segmentation Transformer

Competency-Aware Planning for Probabilistically Safe Navigation Under Perception Uncertainty

Benchmark Evaluations, Applications, and Challenges of Large Vision Language Models: A Survey

Deciphering the Definition of Adversarial Robustness for post-hoc OOD Detectors

When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding

SIGN: A Statistically-Informed Gaze Network for Gaze Time Prediction

最近の投稿

最近のコメント

アーカイブ

カテゴリー