投稿者「jarxiv」のアーカイブ

ReCLIP++: Learn to Rectify the Bias of CLIP for Unsupervised Semantic Segmentation

要約 最近の研究では、CLIP を利用して、注釈のない画像のみを利用できる、困難 … 続きを読む

カテゴリー: cs.CV | ReCLIP++: Learn to Rectify the Bias of CLIP for Unsupervised Semantic Segmentation はコメントを受け付けていません

Improving Image Captioning by Mimicking Human Reformulation Feedback at Inference-time

要約 自動的に予測された人間のフィードバックを生成モデルのトレーニング プロセス … 続きを読む

カテゴリー: cs.CL, cs.CV | Improving Image Captioning by Mimicking Human Reformulation Feedback at Inference-time はコメントを受け付けていません

SplineFormer: An Explainable Transformer-Based Approach for Autonomous Endovascular Navigation

要約 血管内ナビゲーションは低侵襲処置の重要な側面であり、介入を成功させるにはガ … 続きを読む

カテゴリー: cs.CV, cs.RO, eess.IV | SplineFormer: An Explainable Transformer-Based Approach for Autonomous Endovascular Navigation はコメントを受け付けていません

TSCM: A Teacher-Student Model for Vision Place Recognition Using Cross-Metric Knowledge Distillation

要約 視覚的場所認識 (VPR) は、複雑な屋外環境内での移動ロボットの自律探索 … 続きを読む

カテゴリー: cs.CV | TSCM: A Teacher-Student Model for Vision Place Recognition Using Cross-Metric Knowledge Distillation はコメントを受け付けていません

Tutorial on Diffusion Models for Imaging and Vision

要約 近年の生成ツールの驚くべき成長により、テキストから画像の生成やテキストから … 続きを読む

カテゴリー: cs.CV, cs.LG | Tutorial on Diffusion Models for Imaging and Vision はコメントを受け付けていません

Towards Fair Class-wise Robustness: Class Optimal Distribution Adversarial Training

要約 敵対的トレーニングは、敵対的攻撃に対するディープ ニューラル ネットワーク … 続きを読む

カテゴリー: cs.CV, cs.LG | Towards Fair Class-wise Robustness: Class Optimal Distribution Adversarial Training はコメントを受け付けていません

NeuralDiffuser: Neuroscience-inspired Diffusion Guidance for fMRI Visual Reconstruction

要約 機能的磁気共鳴画像法 fMRI から視覚刺激を再構成することで、脳活動をき … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.NE | NeuralDiffuser: Neuroscience-inspired Diffusion Guidance for fMRI Visual Reconstruction はコメントを受け付けていません

Embedding Similarity Guided License Plate Super Resolution

要約 超解像度 (SR) 技術は、特に正確なナンバー プレート認識が重要なセキュ … 続きを読む

カテゴリー: cs.CV, eess.IV | Embedding Similarity Guided License Plate Super Resolution はコメントを受け付けていません

Combining YOLO and Visual Rhythm for Vehicle Counting

要約 ビデオベースの車両検出と計数は、交通インフラの管理において重要な役割を果た … 続きを読む

カテゴリー: cs.CV, cs.LG | Combining YOLO and Visual Rhythm for Vehicle Counting はコメントを受け付けていません

VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM

要約 ビデオ大規模言語モデル (ビデオ LLM) は、最近、一般的なビデオの理解 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM はコメントを受け付けていません