-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Decomposing and Interpreting Image Representations via Text in ViTs Beyond CLIP
要約 最近の研究では、CLIP の共有画像テキスト表現空間を活用することにより、 … 続きを読む
Managing Bandwidth: The Key to Cloud-Assisted Autonomous Driving
要約 一般的な通念では、自動運転車のような重要なリアルタイム制御システムをクラウ … 続きを読む
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models
要約 大規模言語モデル (LLM) の成功により、研究者は統合された視覚的および … 続きを読む
カテゴリー: cs.CV
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models はコメントを受け付けていません
Deep Radiomics Detection of Clinically Significant Prostate Cancer on Multicenter MRI: Initial Comparison to PI-RADS Assessment
要約 目的: 臨床的に重要な前立腺がん (csPCa、グレード グループ >= … 続きを読む
MoRE: Multi-Modal Contrastive Pre-training with Transformers on X-Rays, ECGs, and Diagnostic Report
要約 この論文では、X 線、心電図 (ECG)、および放射線学/心臓病学のレポー … 続きを読む
Revisiting Deep Feature Reconstruction for Logical and Structural Industrial Anomaly Detection
要約 産業用異常検出は品質管理と予知保全にとって重要ですが、トレーニング データ … 続きを読む
Elucidating the design space of language models for image generation
要約 テキスト生成における自己回帰 (AR) 言語モデルの成功により、コンピュー … 続きを読む
カテゴリー: cs.CV
Elucidating the design space of language models for image generation はコメントを受け付けていません
Agent-to-Sim: Learning Interactive Behavior Models from Casual Longitudinal Videos
要約 我々は、カジュアルな縦断ビデオコレクションから 3D エージェントのインタ … 続きを読む
Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance
要約 マルチモーダル大規模言語モデル (MLLM) は、幅広い領域にわたる視覚言 … 続きを読む
カテゴリー: cs.CV
Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance はコメントを受け付けていません
3DGS-Enhancer: Enhancing Unbounded 3D Gaussian Splatting with View-consistent 2D Diffusion Priors
要約 ノベルビュー合成は、複数の入力画像またはビデオからシーンの新しいビューを生 … 続きを読む