月別アーカイブ: 2025年1月

Exploring Task-Level Optimal Prompts for Visual In-Context Learning

投稿日: 2025年1月16日作成者: jarxiv

要約近年の Vision Foundation Models (VFM) の開 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving

投稿日: 2025年1月16日作成者: jarxiv

要約自動運転は、安全な軌道計画を立てるために周囲の環境を認識して理解する必要が … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

CGCOD: Class-Guided Camouflaged Object Detection

投稿日: 2025年1月16日作成者: jarxiv

要約カモフラージュオブジェクト検出 (COD) は、周囲にシームレスに溶け込む … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

The Surprising Ineffectiveness of Pre-Trained Visual Representations for Model-Based Reinforcement Learning

投稿日: 2025年1月16日作成者: jarxiv

要約視覚強化学習 (RL) 手法では、多くの場合、大量のデータが必要になります … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Industrial Anomaly Detection and Localization Using Weakly-Supervised Residual Transformers

投稿日: 2025年1月16日作成者: jarxiv

要約産業用異常検出 (AD) の最近の進歩により、トレーニング中に少数の異常サ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MADiff: Text-Guided Fashion Image Editing with Mask Prediction and Attention-Enhanced Diffusion

投稿日: 2025年1月16日作成者: jarxiv

要約テキストガイド付き画像編集モデルは、一般的な領域で大きな成功を収めています … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Feature-based One-For-All: A Universal Framework for Heterogeneous Knowledge Distillation

投稿日: 2025年1月16日作成者: jarxiv

要約知識蒸留 (KD) には、事前トレーニングされた重い教師モデルから軽い生徒 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Enhanced Multi-Scale Cross-Attention for Person Image Generation

投稿日: 2025年1月16日作成者: jarxiv

要約本稿では、挑戦的な人物画像生成タスクのために、新しいクロスアテンションベー … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Multi-View Transformers for Airway-To-Lung Ratio Inference on Cardiac CT Scans: The C4R Study

投稿日: 2025年1月16日作成者: jarxiv

要約肺サイズに対する気道樹内腔の比（ALR）は、フル吸気時に高解像度全肺コンピ … 続きを読む →

カテゴリー: cs.CV, cs.LG, eess.IV | コメントを受け付けていません

A Foundation Language-Image Model of the Retina (FLAIR): Encoding Expert Knowledge in Text Supervision

投稿日: 2025年1月16日作成者: jarxiv

要約財団のビジョン言語モデルは現在、コンピュータービジョンを変革しており、そ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2025年1月

Exploring Task-Level Optimal Prompts for Visual In-Context Learning

Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving

CGCOD: Class-Guided Camouflaged Object Detection

The Surprising Ineffectiveness of Pre-Trained Visual Representations for Model-Based Reinforcement Learning

Industrial Anomaly Detection and Localization Using Weakly-Supervised Residual Transformers

MADiff: Text-Guided Fashion Image Editing with Mask Prediction and Attention-Enhanced Diffusion

Feature-based One-For-All: A Universal Framework for Heterogeneous Knowledge Distillation

Enhanced Multi-Scale Cross-Attention for Person Image Generation

Multi-View Transformers for Airway-To-Lung Ratio Inference on Cardiac CT Scans: The C4R Study

A Foundation Language-Image Model of the Retina (FLAIR): Encoding Expert Knowledge in Text Supervision

最近の投稿

最近のコメント

アーカイブ

カテゴリー