-
最近の投稿
- BlabberSeg: Real-Time Embedded Open-Vocabulary Aerial Segmentation
- Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks
- Risk Assessment for Autonomous Landing in Urban Environments using Semantic Segmentation
- Configurable Embodied Data Generation for Class-Agnostic RGB-D Video Segmentation
- RPCBF: Constructing Safety Filters Robust to Model Error and Disturbances via Policy Control Barrier Functions
-
最近のコメント
表示できるコメントはありません。 cs.AI (28260) cs.CL (21356) cs.CR (2207) cs.CV (34912) cs.LG (33009) cs.RO (16270) cs.SY (2503) eess.IV (4251) eess.SY (2497) stat.ML (4424)
月別アーカイブ: 2024年6月
CarLLaVA: Vision language models for camera-only closed-loop driving
要約 この技術レポートでは、CARLA 自動運転チャレンジ 2.0 のために開発 … 続きを読む
4DRecons: 4D Neural Implicit Deformable Objects Reconstruction from a single RGB-D Camera with Geometrical and Topological Regularizations
要約 この論文では、単一カメラの動的な被写体の RGB-D シーケンスを入力とし … 続きを読む
カテゴリー: cs.CV
4DRecons: 4D Neural Implicit Deformable Objects Reconstruction from a single RGB-D Camera with Geometrical and Topological Regularizations はコメントを受け付けていません
Generalization Beyond Data Imbalance: A Controlled Study on CLIP for Transferable Insights
要約 Web スケールのビジョン言語データセット間には、当然ながら深刻なデータの … 続きを読む
Enhancing Incomplete Multi-modal Brain Tumor Segmentation with Intra-modal Asymmetry and Inter-modal Dependency
要約 マルチモーダル MRI 画像用の深層学習ベースの脳腫瘍セグメンテーション … 続きを読む
カテゴリー: cs.CV
Enhancing Incomplete Multi-modal Brain Tumor Segmentation with Intra-modal Asymmetry and Inter-modal Dependency はコメントを受け付けていません
MeshPose: Unifying DensePose and 3D Body Mesh reconstruction
要約 DensePose は、画像と 3D メッシュ座標とのピクセル精度の関連付 … 続きを読む
Detecting and Evaluating Medical Hallucinations in Large Vision Language Models
要約 Large Vision Language Model (LVLM) は、 … 続きを読む
カテゴリー: cs.CV
Detecting and Evaluating Medical Hallucinations in Large Vision Language Models はコメントを受け付けていません
A Simple Interpretable Transformer for Fine-Grained Image Classification and Analysis
要約 画像分類を解釈可能にするための Transformers の新しい使用法を … 続きを読む
Crafting Parts for Expressive Object Composition
要約 Stable Diffusion、DALLE-2 などの大規模な生成モデル … 続きを読む
SSTFB: Leveraging self-supervised pretext learning and temporal self-attention with feature branching for real-time video polyp segmentation
要約 ポリープは早期がんの指標であるため、ポリープの発生とその切除を評価すること … 続きを読む
Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Rendering
要約 最近、Glyph-ByT5 は、グラフィック デザイン画像における高精度の … 続きを読む
カテゴリー: cs.CV
Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Rendering はコメントを受け付けていません