cs.CV」カテゴリーアーカイブ

Zero-Shot Character Identification and Speaker Prediction in Comics via Iterative Multimodal Fusion

要約 キャラクターを認識し、会話の話者を予測することは、音声生成や翻訳などのコミ … 続きを読む

カテゴリー: cs.CV, cs.MM | Zero-Shot Character Identification and Speaker Prediction in Comics via Iterative Multimodal Fusion はコメントを受け付けていません

X-Reflect: Cross-Reflection Prompting for Multimodal Recommendation

要約 大規模言語モデル (LLM) と大規模マルチモーダル モデル (LMM) … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.IR | X-Reflect: Cross-Reflection Prompting for Multimodal Recommendation はコメントを受け付けていません

CNN-Transformer Rectified Collaborative Learning for Medical Image Segmentation

要約 自動かつ正確な医用画像セグメンテーション (MIS) は、臨床診断と分析に … 続きを読む

カテゴリー: cs.CV | CNN-Transformer Rectified Collaborative Learning for Medical Image Segmentation はコメントを受け付けていません

UWF-RI2FA: Generating Multi-frame Ultrawide-field Fluorescein Angiography from Ultrawide-field Retinal Imaging Improves Diabetic Retinopathy Stratification

要約 超広視野フルオレセイン血管造影 (UWF-FA) は、周辺網膜病変を鮮明に … 続きを読む

カテゴリー: cs.CV, eess.IV | UWF-RI2FA: Generating Multi-frame Ultrawide-field Fluorescein Angiography from Ultrawide-field Retinal Imaging Improves Diabetic Retinopathy Stratification はコメントを受け付けていません

A Review of Transformer-Based Models for Computer Vision Tasks: Capturing Global Context and Spatial Relationships

要約 トランスフォーマー ベースのモデルは、自然言語処理 (NLP) の状況を一 … 続きを読む

カテゴリー: cs.CV | A Review of Transformer-Based Models for Computer Vision Tasks: Capturing Global Context and Spatial Relationships はコメントを受け付けていません

Comprehensive Performance Evaluation of YOLOv10, YOLOv9 and YOLOv8 on Detecting and Counting Fruitlet in Complex Orchard Environments

要約 この研究では、商業果樹園における(緑色の果実の)小果実検出のための YOL … 続きを読む

カテゴリー: cs.AI, cs.CV | Comprehensive Performance Evaluation of YOLOv10, YOLOv9 and YOLOv8 on Detecting and Counting Fruitlet in Complex Orchard Environments はコメントを受け付けていません

PoseWatch: A Transformer-based Architecture for Human-centric Video Anomaly Detection Using Spatio-temporal Pose Tokenization

要約 ビデオ異常検出 (VAD) は、特に異常イベントの予測不可能で頻度の低い性 … 続きを読む

カテゴリー: cs.AI, cs.CV | PoseWatch: A Transformer-based Architecture for Human-centric Video Anomaly Detection Using Spatio-temporal Pose Tokenization はコメントを受け付けていません

Creating Image Datasets in Agricultural Environments using DALL.E: Generative AI-Powered Large Language Model

要約 この研究では、農業におけるデータ生成および視覚化技術の進歩における人工知能 … 続きを読む

カテゴリー: cs.CV | Creating Image Datasets in Agricultural Environments using DALL.E: Generative AI-Powered Large Language Model はコメントを受け付けていません

KAN-RCBEVDepth: A multi-modal fusion algorithm in object detection for autonomous driving

要約 自動運転における正確な 3D オブジェクト検出は非常に重要ですが、オクルー … 続きを読む

カテゴリー: cs.AI, cs.CV | KAN-RCBEVDepth: A multi-modal fusion algorithm in object detection for autonomous driving はコメントを受け付けていません

An Investigation on The Position Encoding in Vision-Based Dynamics Prediction

要約 RGB 画像と単純な物体の説明を利用して物体の状態を予測する、ビジョンベー … 続きを読む

カテゴリー: cs.CV | An Investigation on The Position Encoding in Vision-Based Dynamics Prediction はコメントを受け付けていません