cs.CV」カテゴリーアーカイブ

Decomposing and Interpreting Image Representations via Text in ViTs Beyond CLIP

要約 最近の研究では、CLIP の共有画像テキスト表現空間を活用することにより、 … 続きを読む

カテゴリー: cs.CV, cs.LG, I.5.1 | Decomposing and Interpreting Image Representations via Text in ViTs Beyond CLIP はコメントを受け付けていません

Managing Bandwidth: The Key to Cloud-Assisted Autonomous Driving

要約 一般的な通念では、自動運転車のような重要なリアルタイム制御システムをクラウ … 続きを読む

カテゴリー: cs.CV, cs.NI, cs.SY, eess.SY | Managing Bandwidth: The Key to Cloud-Assisted Autonomous Driving はコメントを受け付けていません

LLaVA-KD: A Framework of Distilling Multimodal Large Language Models

要約 大規模言語モデル (LLM) の成功により、研究者は統合された視覚的および … 続きを読む

カテゴリー: cs.CV | LLaVA-KD: A Framework of Distilling Multimodal Large Language Models はコメントを受け付けていません

Deep Radiomics Detection of Clinically Significant Prostate Cancer on Multicenter MRI: Initial Comparison to PI-RADS Assessment

要約 目的: 臨床的に重要な前立腺がん (csPCa、グレード グループ >= … 続きを読む

カテゴリー: cs.CV, eess.IV | Deep Radiomics Detection of Clinically Significant Prostate Cancer on Multicenter MRI: Initial Comparison to PI-RADS Assessment はコメントを受け付けていません

MoRE: Multi-Modal Contrastive Pre-training with Transformers on X-Rays, ECGs, and Diagnostic Report

要約 この論文では、X 線、心電図 (ECG)、および放射線学/心臓病学のレポー … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | MoRE: Multi-Modal Contrastive Pre-training with Transformers on X-Rays, ECGs, and Diagnostic Report はコメントを受け付けていません

Revisiting Deep Feature Reconstruction for Logical and Structural Industrial Anomaly Detection

要約 産業用異常検出は品質管理と予知保全にとって重要ですが、トレーニング データ … 続きを読む

カテゴリー: cs.CV, cs.LG | Revisiting Deep Feature Reconstruction for Logical and Structural Industrial Anomaly Detection はコメントを受け付けていません

Elucidating the design space of language models for image generation

要約 テキスト生成における自己回帰 (AR) 言語モデルの成功により、コンピュー … 続きを読む

カテゴリー: cs.CV | Elucidating the design space of language models for image generation はコメントを受け付けていません

Agent-to-Sim: Learning Interactive Behavior Models from Casual Longitudinal Videos

要約 我々は、カジュアルな縦断ビデオコレクションから 3D エージェントのインタ … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.RO | Agent-to-Sim: Learning Interactive Behavior Models from Casual Longitudinal Videos はコメントを受け付けていません

Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance

要約 マルチモーダル大規模言語モデル (MLLM) は、幅広い領域にわたる視覚言 … 続きを読む

カテゴリー: cs.CV | Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance はコメントを受け付けていません

3DGS-Enhancer: Enhancing Unbounded 3D Gaussian Splatting with View-consistent 2D Diffusion Priors

要約 ノベルビュー合成は、複数の入力画像またはビデオからシーンの新しいビューを生 … 続きを読む

カテゴリー: cs.AI, cs.CV | 3DGS-Enhancer: Enhancing Unbounded 3D Gaussian Splatting with View-consistent 2D Diffusion Priors はコメントを受け付けていません