-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Zero-Shot Character Identification and Speaker Prediction in Comics via Iterative Multimodal Fusion
要約 キャラクターを認識し、会話の話者を予測することは、音声生成や翻訳などのコミ … 続きを読む
X-Reflect: Cross-Reflection Prompting for Multimodal Recommendation
要約 大規模言語モデル (LLM) と大規模マルチモーダル モデル (LMM) … 続きを読む
CNN-Transformer Rectified Collaborative Learning for Medical Image Segmentation
要約 自動かつ正確な医用画像セグメンテーション (MIS) は、臨床診断と分析に … 続きを読む
カテゴリー: cs.CV
CNN-Transformer Rectified Collaborative Learning for Medical Image Segmentation はコメントを受け付けていません
UWF-RI2FA: Generating Multi-frame Ultrawide-field Fluorescein Angiography from Ultrawide-field Retinal Imaging Improves Diabetic Retinopathy Stratification
要約 超広視野フルオレセイン血管造影 (UWF-FA) は、周辺網膜病変を鮮明に … 続きを読む
A Review of Transformer-Based Models for Computer Vision Tasks: Capturing Global Context and Spatial Relationships
要約 トランスフォーマー ベースのモデルは、自然言語処理 (NLP) の状況を一 … 続きを読む
カテゴリー: cs.CV
A Review of Transformer-Based Models for Computer Vision Tasks: Capturing Global Context and Spatial Relationships はコメントを受け付けていません
Comprehensive Performance Evaluation of YOLOv10, YOLOv9 and YOLOv8 on Detecting and Counting Fruitlet in Complex Orchard Environments
要約 この研究では、商業果樹園における(緑色の果実の)小果実検出のための YOL … 続きを読む
PoseWatch: A Transformer-based Architecture for Human-centric Video Anomaly Detection Using Spatio-temporal Pose Tokenization
要約 ビデオ異常検出 (VAD) は、特に異常イベントの予測不可能で頻度の低い性 … 続きを読む
Creating Image Datasets in Agricultural Environments using DALL.E: Generative AI-Powered Large Language Model
要約 この研究では、農業におけるデータ生成および視覚化技術の進歩における人工知能 … 続きを読む
カテゴリー: cs.CV
Creating Image Datasets in Agricultural Environments using DALL.E: Generative AI-Powered Large Language Model はコメントを受け付けていません
KAN-RCBEVDepth: A multi-modal fusion algorithm in object detection for autonomous driving
要約 自動運転における正確な 3D オブジェクト検出は非常に重要ですが、オクルー … 続きを読む
An Investigation on The Position Encoding in Vision-Based Dynamics Prediction
要約 RGB 画像と単純な物体の説明を利用して物体の状態を予測する、ビジョンベー … 続きを読む
カテゴリー: cs.CV
An Investigation on The Position Encoding in Vision-Based Dynamics Prediction はコメントを受け付けていません