-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities
要約 近年、マルチモーダル理解モデルと画像生成モデルの両方が目覚ましい進歩を遂げ … 続きを読む
カテゴリー: cs.CV
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities はコメントを受け付けていません
Geometric Knowledge-Guided Localized Global Distribution Alignment for Federated Learning
要約 連合学習におけるデータの不均一性は、局所分布と大域分布の間の著しい不整合に … 続きを読む
RGBX-DiffusionDet: A Framework for Multi-Modal RGB-X Object Detection Using DiffusionDet
要約 RGBX-DiffusionDetは、DiffusionDetモデルを拡張 … 続きを読む
カテゴリー: cs.CV
RGBX-DiffusionDet: A Framework for Multi-Modal RGB-X Object Detection Using DiffusionDet はコメントを受け付けていません
GRAPHITE: Graph-Based Interpretable Tissue Examination for Enhanced Explainability in Breast Cancer Histopathology
要約 医療組織病理学における説明可能なAI(XAI)は、がん診断における深層学習 … 続きを読む
DELTA: Dense Depth from Events and LiDAR using Transformer’s Attention
要約 イベントカメラとLiDARはそれぞれ、照明の変化の非同期検出と、一定速度で … 続きを読む
SiMHand: Mining Similar Hands for Large-Scale 3D Hand Pose Pre-training
要約 本論文では、SimHandと呼ばれる、類似した手の特徴を共有する野生の手画 … 続きを読む
カテゴリー: cs.CV
SiMHand: Mining Similar Hands for Large-Scale 3D Hand Pose Pre-training はコメントを受け付けていません
Detect, Classify, Act: Categorizing Industrial Anomalies with Multi-Modal Large Language Models
要約 最近の工業用視覚的異常検出の進歩により、高速な推論速度を維持しながら、異常 … 続きを読む
カテゴリー: cs.CV
Detect, Classify, Act: Categorizing Industrial Anomalies with Multi-Modal Large Language Models はコメントを受け付けていません
DeepSparse: A Foundation Model for Sparse-View CBCT Reconstruction
要約 コーンビームCT(CBCT)は、医療分野において重要な3次元画像技術である … 続きを読む
MCCD: Multi-Agent Collaboration-based Compositional Diffusion for Complex Text-to-Image Generation
要約 拡散モデルは、テキストから画像への生成において優れた性能を示してきた。しか … 続きを読む
カテゴリー: cs.CV
MCCD: Multi-Agent Collaboration-based Compositional Diffusion for Complex Text-to-Image Generation はコメントを受け付けていません
FissionVAE: Federated Non-IID Image Generation with Latent Space and Decoder Decomposition
要約 連携学習は、分散化されたクライアントが、すべての学習データをローカルに保ち … 続きを読む