cs.CV」カテゴリーアーカイブ

Benchmarking of Different YOLO Models for CAPTCHAs Detection and Classification

要約 このペーパーでは、WebとDarkNetから収集されたデータセット、および … 続きを読む

カテゴリー: cs.CV | Benchmarking of Different YOLO Models for CAPTCHAs Detection and Classification はコメントを受け付けていません

RSNet: A Light Framework for The Detection of Multi-scale Remote Sensing Targets

要約 深い学習を使用した合成開口レーダー(SAR)船の検出の最近の進歩により、精 … 続きを読む

カテゴリー: cs.CV, eess.IV | RSNet: A Light Framework for The Detection of Multi-scale Remote Sensing Targets はコメントを受け付けていません

Capturing Rich Behavior Representations: A Dynamic Action Semantic-Aware Graph Transformer for Video Captioning

要約 既存のビデオキャプションメソッドは、オブジェクトの動作の浅いまたは単純な表 … 続きを読む

カテゴリー: cs.CV | Capturing Rich Behavior Representations: A Dynamic Action Semantic-Aware Graph Transformer for Video Captioning はコメントを受け付けていません

Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework

要約 画像の位置を識別するタスクである地理配位には、複雑な推論が必要であり、ナビ … 続きを読む

カテゴリー: cs.CV | Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework はコメントを受け付けていません

An Overall Real-Time Mechanism for Classification and Quality Evaluation of Rice

要約 米は世界で最も広く栽培されている作物の1つであり、多くの品種に発展していま … 続きを読む

カテゴリー: cs.AI, cs.CV | An Overall Real-Time Mechanism for Classification and Quality Evaluation of Rice はコメントを受け付けていません

From Correctness to Comprehension: AI Agents for Personalized Error Diagnosis in Education

要約 GPT-4などの大規模な言語モデル(LLM)は、GSM8Kなどのベンチマー … 続きを読む

カテゴリー: cs.CV | From Correctness to Comprehension: AI Agents for Personalized Error Diagnosis in Education はコメントを受け付けていません

Rethinking Audio-Visual Adversarial Vulnerability from Temporal and Modality Perspectives

要約 視聴覚学習は、複数の感覚モダリティを活用することにより、現実の世界をより豊 … 続きを読む

カテゴリー: cs.CV, cs.SD | Rethinking Audio-Visual Adversarial Vulnerability from Temporal and Modality Perspectives はコメントを受け付けていません

3D Gaussian Splatting aided Localization for Large and Complex Indoor-Environments

要約 視覚的ローカリゼーションの分野は数十年にわたって研究されており、その間に多 … 続きを読む

カテゴリー: cs.CV, cs.RO | 3D Gaussian Splatting aided Localization for Large and Complex Indoor-Environments はコメントを受け付けていません

ChineseSimpleVQA — ‘See the World, Discover Knowledge’: A Chinese Factuality Evaluation for Large Vision Language Models

要約 大規模なビジョン言語モデル(LVLMS)における事実上の精度の評価は、急速 … 続きを読む

カテゴリー: cs.CL, cs.CV | ChineseSimpleVQA — ‘See the World, Discover Knowledge’: A Chinese Factuality Evaluation for Large Vision Language Models はコメントを受け付けていません

MGFI-Net: A Multi-Grained Feature Integration Network for Enhanced Medical Image Segmentation

要約 医療画像セグメンテーションは、さまざまな臨床応用で重要な役割を果たしていま … 続きを読む

カテゴリー: cs.CV, eess.IV | MGFI-Net: A Multi-Grained Feature Integration Network for Enhanced Medical Image Segmentation はコメントを受け付けていません