-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Multibranch Generative Models for Multichannel Imaging with an Application to PET/CT Synergistic Reconstruction
要約 本論文では、マルチブランチ生成モデルを用いて、医用画像の相乗的再構成を学習 … 続きを読む
カテゴリー: cs.CV, eess.IV, physics.med-ph
Multibranch Generative Models for Multichannel Imaging with an Application to PET/CT Synergistic Reconstruction はコメントを受け付けていません
Contrast-Aware Calibration for Fine-Tuned CLIP: Leveraging Image-Text Alignment
要約 CLIPのような視覚言語モデル(VLM)は、卓越した汎化能力を実証しており … 続きを読む
JoVALE: Detecting Human Actions in Video Using Audiovisual and Language Contexts
要約 ビデオアクション検出(VAD:Video Action Detection … 続きを読む
カテゴリー: cs.CV
JoVALE: Detecting Human Actions in Video Using Audiovisual and Language Contexts はコメントを受け付けていません
PostEdit: Posterior Sampling for Efficient Zero-Shot Image Editing
要約 画像編集の分野では、制御性、背景保存、効率性という3つの核となる課題が残っ … 続きを読む
Robust Hyperbolic Learning with Curvature-Aware Optimization
要約 双曲面深層学習は、代替埋め込み空間によって与えられるユニークな特性のため、 … 続きを読む
カテゴリー: cs.CV
Robust Hyperbolic Learning with Curvature-Aware Optimization はコメントを受け付けていません
Multi-modal Agent Tuning: Building a VLM-Driven Agent for Efficient Tool Usage
要約 大規模言語モデル(LLM)の進歩は、外部ツールを呼び出すためのコントローラ … 続きを読む
Reflective Gaussian Splatting
要約 NeRFや3DGSに基づく手法の性能向上により、新しいビュー合成は大きく進 … 続きを読む
カテゴリー: cs.CV
Reflective Gaussian Splatting はコメントを受け付けていません
GIFT: A Framework for Global Interpretable Faithful Textual Explanations of Vision Classifiers
要約 ディープモデルを理解することは、セーフティクリティカルなアプリケーションに … 続きを読む
カテゴリー: cs.CV
GIFT: A Framework for Global Interpretable Faithful Textual Explanations of Vision Classifiers はコメントを受け付けていません
Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications
要約 本テクニカルレポートでは、Prithvi-EO-2.0を紹介します。Pri … 続きを読む
カテゴリー: cs.CV
Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications はコメントを受け付けていません
Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining
要約 デジタルエージェントは、ウェブページ、ソフトウェアアプリケーション、オペレ … 続きを読む