-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2024年1月
Bridging Modality Gap for Visual Grounding with Effecitve Cross-modal Distillation
要約 視覚的グラウンディングは、画像の特定領域の視覚情報を対応する自然言語表現と … 続きを読む
Multi-stage feature decorrelation constraints for improving CNN classification performance
要約 パターン分類に使用される畳み込みニューラル ネットワーク (CNN) の場 … 続きを読む
カテゴリー: cs.CV
Multi-stage feature decorrelation constraints for improving CNN classification performance はコメントを受け付けていません
Visual Point Cloud Forecasting enables Scalable Autonomous Driving
要約 一般的な視覚に関する広範な研究とは対照的に、スケーラブルな視覚自動運転のた … 続きを読む
カテゴリー: cs.CV
Visual Point Cloud Forecasting enables Scalable Autonomous Driving はコメントを受け付けていません
Revealing the Underlying Patterns: Investigating Dataset Similarity, Performance, and Generalization
要約 教師あり深層学習モデルでは、特定のタスクで許容可能なパフォーマンスを達成す … 続きを読む
Gemini in Reasoning: Unveiling Commonsense in Multimodal Large Language Models
要約 OpenAI の GPT-4V(ision) など、マルチモーダル大規模言 … 続きを読む
CoreDeep: Improving Crack Detection Algorithms Using Width Stochasticity
要約 画像内の亀裂を自動的に検出またはセグメント化すると、メンテナンスや運用のコ … 続きを読む
Shape-IoU: More Accurate Metric considering Bounding Box Shape and Scale
要約 境界ボックス回帰損失は、検出器位置特定ブランチの重要なコンポーネントとして … 続きを読む
カテゴリー: cs.CV
Shape-IoU: More Accurate Metric considering Bounding Box Shape and Scale はコメントを受け付けていません
Exploring Iterative Refinement with Diffusion Models for Video Grounding
要約 ビデオ グラウンディングは、特定の文のクエリに対応するトリミングされていな … 続きを読む
カテゴリー: cs.CV
Exploring Iterative Refinement with Diffusion Models for Video Grounding はコメントを受け付けていません
Can Vision-Language Models be a Good Guesser? Exploring VLMs for Times and Location Reasoning
要約 視覚言語モデル (VLM) は、人間としての常識的な知識に基づいて推論でき … 続きを読む
Benchmarking the CoW with the TopCoW Challenge: Topology-Aware Anatomical Segmentation of the Circle of Willis for CTA and MRA
要約 ウィリス環 (CoW) は、脳の主要な循環を接続する重要な動脈ネットワーク … 続きを読む