-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Decoupling Fine Detail and Global Geometry for Compressed Depth Map Super-Resolution
要約 消費者向けの深度カメラの制限とデータ送信時の帯域幅の制限により、圧縮ソース … 続きを読む
カテゴリー: cs.CV
Decoupling Fine Detail and Global Geometry for Compressed Depth Map Super-Resolution はコメントを受け付けていません
Decoupled Pseudo-labeling for Semi-Supervised Monocular 3D Object Detection
要約 私たちは、半教師あり単眼 3D 物体検出 (SSM3OD) の擬似ラベリン … 続きを読む
カテゴリー: cs.CV
Decoupled Pseudo-labeling for Semi-Supervised Monocular 3D Object Detection はコメントを受け付けていません
ShadowMamba: State-Space Model with Boundary-Region Selective Scan for Shadow Removal
要約 画像の影の除去は典型的な低レベルの視覚の問題であり、影の存在により特定の領 … 続きを読む
カテゴリー: cs.CV
ShadowMamba: State-Space Model with Boundary-Region Selective Scan for Shadow Removal はコメントを受け付けていません
DiT4Edit: Diffusion Transformer for Image Editing
要約 UNet ベースの画像編集は最近進歩していますが、高解像度画像で形状を認識 … 続きを読む
カテゴリー: cs.CV
DiT4Edit: Diffusion Transformer for Image Editing はコメントを受け付けていません
Cognitive Planning for Object Goal Navigation using Generative AI Models
要約 生成 AI、特に大規模言語モデル (LLM) と大規模視覚言語モデル (L … 続きを読む
DAAL: Density-Aware Adaptive Line Margin Loss for Multi-Modal Deep Metric Learning
要約 マルチモーダルディープメトリクスラーニングは、顔認証、きめ細かいオブジェク … 続きを読む
Inference Optimal VLMs Need Only One Visual Token but Larger Models
要約 ビジョン言語モデル (VLM) は、さまざまな視覚的理解と推論タスクにわた … 続きを読む
Classification Done Right for Vision-Language Pre-Training
要約 画像テキストデータに対する視覚言語の事前トレーニングのための非常にシンプル … 続きを読む
カテゴリー: cs.CV
Classification Done Right for Vision-Language Pre-Training はコメントを受け付けていません
MME-Finance: A Multimodal Finance Benchmark for Expert-level Understanding and Reasoning
要約 近年、一般的なドメインのマルチモーダル ベンチマークにより、一般的なタスク … 続きを読む
Digi2Real: Bridging the Realism Gap in Synthetic Data Face Recognition via Foundation Models
要約 顔認識システムの精度は、収集された大量のデータとニューラル ネットワーク … 続きを読む
カテゴリー: cs.CV
Digi2Real: Bridging the Realism Gap in Synthetic Data Face Recognition via Foundation Models はコメントを受け付けていません