-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2024年6月
CarLLaVA: Vision language models for camera-only closed-loop driving
要約 この技術レポートでは、CARLA 自動運転チャレンジ 2.0 のために開発 … 続きを読む
4DRecons: 4D Neural Implicit Deformable Objects Reconstruction from a single RGB-D Camera with Geometrical and Topological Regularizations
要約 この論文では、単一カメラの動的な被写体の RGB-D シーケンスを入力とし … 続きを読む
カテゴリー: cs.CV
4DRecons: 4D Neural Implicit Deformable Objects Reconstruction from a single RGB-D Camera with Geometrical and Topological Regularizations はコメントを受け付けていません
Generalization Beyond Data Imbalance: A Controlled Study on CLIP for Transferable Insights
要約 Web スケールのビジョン言語データセット間には、当然ながら深刻なデータの … 続きを読む
Enhancing Incomplete Multi-modal Brain Tumor Segmentation with Intra-modal Asymmetry and Inter-modal Dependency
要約 マルチモーダル MRI 画像用の深層学習ベースの脳腫瘍セグメンテーション … 続きを読む
カテゴリー: cs.CV
Enhancing Incomplete Multi-modal Brain Tumor Segmentation with Intra-modal Asymmetry and Inter-modal Dependency はコメントを受け付けていません
MeshPose: Unifying DensePose and 3D Body Mesh reconstruction
要約 DensePose は、画像と 3D メッシュ座標とのピクセル精度の関連付 … 続きを読む
Detecting and Evaluating Medical Hallucinations in Large Vision Language Models
要約 Large Vision Language Model (LVLM) は、 … 続きを読む
カテゴリー: cs.CV
Detecting and Evaluating Medical Hallucinations in Large Vision Language Models はコメントを受け付けていません
A Simple Interpretable Transformer for Fine-Grained Image Classification and Analysis
要約 画像分類を解釈可能にするための Transformers の新しい使用法を … 続きを読む
Crafting Parts for Expressive Object Composition
要約 Stable Diffusion、DALLE-2 などの大規模な生成モデル … 続きを読む
SSTFB: Leveraging self-supervised pretext learning and temporal self-attention with feature branching for real-time video polyp segmentation
要約 ポリープは早期がんの指標であるため、ポリープの発生とその切除を評価すること … 続きを読む
Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Rendering
要約 最近、Glyph-ByT5 は、グラフィック デザイン画像における高精度の … 続きを読む
カテゴリー: cs.CV
Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Rendering はコメントを受け付けていません