投稿者「jarxiv」のアーカイブ

MANTA: Diffusion Mamba for Efficient and Effective Stochastic Long-Term Dense Anticipation

要約 私たちの研究は、確率論的長期密予測の問題に取り組んでいます。 このタスクの … 続きを読む

カテゴリー: cs.CV | コメントする

Exploring Task-Level Optimal Prompts for Visual In-Context Learning

要約 近年の Vision Foundation Models (VFM) の開 … 続きを読む

カテゴリー: cs.AI, cs.CV | コメントする

Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving

要約 自動運転は、安全な軌道計画を立てるために周囲の環境を認識して理解する必要が … 続きを読む

カテゴリー: cs.CV | コメントする

CGCOD: Class-Guided Camouflaged Object Detection

要約 カモフラージュオブジェクト検出 (COD) は、周囲にシームレスに溶け込む … 続きを読む

カテゴリー: cs.CV, cs.LG | コメントする

The Surprising Ineffectiveness of Pre-Trained Visual Representations for Model-Based Reinforcement Learning

要約 視覚強化学習 (RL) 手法では、多くの場合、大量のデータが必要になります … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

Industrial Anomaly Detection and Localization Using Weakly-Supervised Residual Transformers

要約 産業用異常検出 (AD) の最近の進歩により、トレーニング中に少数の異常サ … 続きを読む

カテゴリー: cs.CV | コメントする

MADiff: Text-Guided Fashion Image Editing with Mask Prediction and Attention-Enhanced Diffusion

要約 テキストガイド付き画像編集モデルは、一般的な領域で大きな成功を収めています … 続きを読む

カテゴリー: cs.CV | コメントする

Feature-based One-For-All: A Universal Framework for Heterogeneous Knowledge Distillation

要約 知識蒸留 (KD) には、事前トレーニングされた重い教師モデルから軽い生徒 … 続きを読む

カテゴリー: cs.CV | コメントする

Enhanced Multi-Scale Cross-Attention for Person Image Generation

要約 本稿では、挑戦的な人物画像生成タスクのために、新しいクロスアテンションベー … 続きを読む

カテゴリー: cs.CV | コメントする

Multi-View Transformers for Airway-To-Lung Ratio Inference on Cardiac CT Scans: The C4R Study

要約 肺サイズに対する気道樹内腔の比(ALR)は、フル吸気時に高解像度全肺コンピ … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.IV | コメントする