月別アーカイブ: 2025年1月

Exploring Task-Level Optimal Prompts for Visual In-Context Learning

要約 近年の Vision Foundation Models (VFM) の開 … 続きを読む

カテゴリー: cs.AI, cs.CV | Exploring Task-Level Optimal Prompts for Visual In-Context Learning はコメントを受け付けていません

Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving

要約 自動運転は、安全な軌道計画を立てるために周囲の環境を認識して理解する必要が … 続きを読む

カテゴリー: cs.CV | Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving はコメントを受け付けていません

CGCOD: Class-Guided Camouflaged Object Detection

要約 カモフラージュオブジェクト検出 (COD) は、周囲にシームレスに溶け込む … 続きを読む

カテゴリー: cs.CV, cs.LG | CGCOD: Class-Guided Camouflaged Object Detection はコメントを受け付けていません

The Surprising Ineffectiveness of Pre-Trained Visual Representations for Model-Based Reinforcement Learning

要約 視覚強化学習 (RL) 手法では、多くの場合、大量のデータが必要になります … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | The Surprising Ineffectiveness of Pre-Trained Visual Representations for Model-Based Reinforcement Learning はコメントを受け付けていません

Industrial Anomaly Detection and Localization Using Weakly-Supervised Residual Transformers

要約 産業用異常検出 (AD) の最近の進歩により、トレーニング中に少数の異常サ … 続きを読む

カテゴリー: cs.CV | Industrial Anomaly Detection and Localization Using Weakly-Supervised Residual Transformers はコメントを受け付けていません

MADiff: Text-Guided Fashion Image Editing with Mask Prediction and Attention-Enhanced Diffusion

要約 テキストガイド付き画像編集モデルは、一般的な領域で大きな成功を収めています … 続きを読む

カテゴリー: cs.CV | MADiff: Text-Guided Fashion Image Editing with Mask Prediction and Attention-Enhanced Diffusion はコメントを受け付けていません

Feature-based One-For-All: A Universal Framework for Heterogeneous Knowledge Distillation

要約 知識蒸留 (KD) には、事前トレーニングされた重い教師モデルから軽い生徒 … 続きを読む

カテゴリー: cs.CV | Feature-based One-For-All: A Universal Framework for Heterogeneous Knowledge Distillation はコメントを受け付けていません

Enhanced Multi-Scale Cross-Attention for Person Image Generation

要約 本稿では、挑戦的な人物画像生成タスクのために、新しいクロスアテンションベー … 続きを読む

カテゴリー: cs.CV | Enhanced Multi-Scale Cross-Attention for Person Image Generation はコメントを受け付けていません

Multi-View Transformers for Airway-To-Lung Ratio Inference on Cardiac CT Scans: The C4R Study

要約 肺サイズに対する気道樹内腔の比(ALR)は、フル吸気時に高解像度全肺コンピ … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.IV | Multi-View Transformers for Airway-To-Lung Ratio Inference on Cardiac CT Scans: The C4R Study はコメントを受け付けていません

A Foundation Language-Image Model of the Retina (FLAIR): Encoding Expert Knowledge in Text Supervision

要約 財団のビジョン言語モデルは現在、コンピューター ビジョンを変革しており、そ … 続きを読む

カテゴリー: cs.CV | A Foundation Language-Image Model of the Retina (FLAIR): Encoding Expert Knowledge in Text Supervision はコメントを受け付けていません