cs.CV」カテゴリーアーカイブ

KOSMOS-2.5: A Multimodal Literate Model

要約 テキスト中心の画像の自動読み取りは、汎用人工知能 (AGI) の実現に向け … 続きを読む

カテゴリー: cs.CL, cs.CV | KOSMOS-2.5: A Multimodal Literate Model はコメントを受け付けていません

A Survey for Foundation Models in Autonomous Driving

要約 基礎モデルの出現により、自然言語処理とコンピューター ビジョンの分野に革命 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | A Survey for Foundation Models in Autonomous Driving はコメントを受け付けていません

Exploiting Diffusion Prior for Out-of-Distribution Detection

要約 配布外 (OOD) の検出は、特にセキュリティが重要な領域において、堅牢な … 続きを読む

カテゴリー: cs.AI, cs.CV | Exploiting Diffusion Prior for Out-of-Distribution Detection はコメントを受け付けていません

A Novel State Space Model with Local Enhancement and State Sharing for Image Fusion

要約 画像融合タスクでは、さまざまなソースからの画像が異なる特徴を持っています。 … 続きを読む

カテゴリー: cs.CV | A Novel State Space Model with Local Enhancement and State Sharing for Image Fusion はコメントを受け付けていません

Timeline and Boundary Guided Diffusion Network for Video Shadow Detection

要約 ビデオ シャドウ検出 (VSD) は、フレーム シーケンスを使用してシャド … 続きを読む

カテゴリー: cs.AI, cs.CV | Timeline and Boundary Guided Diffusion Network for Video Shadow Detection はコメントを受け付けていません

NuSegDG: Integration of Heterogeneous Space and Gaussian Kernel for Domain-Generalized Nuclei Segmentation

要約 ドメイン一般化された核セグメンテーションは、ソース ドメインから学習した知 … 続きを読む

カテゴリー: cs.CV, eess.IV | NuSegDG: Integration of Heterogeneous Space and Gaussian Kernel for Domain-Generalized Nuclei Segmentation はコメントを受け付けていません

DreamFactory: Pioneering Multi-Scene Long Video Generation with a Multi-Agent Framework

要約 現在のビデオ生成モデルは、短くてリアルなクリップの作成には優れていますが、 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.SE, TsingHua University | DreamFactory: Pioneering Multi-Scene Long Video Generation with a Multi-Agent Framework はコメントを受け付けていません

EE-MLLM: A Data-Efficient and Compute-Efficient Multimodal Large Language Model

要約 マルチモーダル研究の分野では、多くの研究が実質的な画像とテキストのペアを活 … 続きを読む

カテゴリー: cs.CV | EE-MLLM: A Data-Efficient and Compute-Efficient Multimodal Large Language Model はコメントを受け付けていません

Story3D-Agent: Exploring 3D Storytelling Visualization with Large Language Models

要約 従来のビジュアルストーリーテリングは複雑であり、専門的な知識と多大なリソー … 続きを読む

カテゴリー: cs.CV | Story3D-Agent: Exploring 3D Storytelling Visualization with Large Language Models はコメントを受け付けていません

ACE: A Cross-Platform Visual-Exoskeletons System for Low-Cost Dexterous Teleoperation

要約 デモンストレーションから学習することは、特に遠隔操作システムで最近収集され … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | ACE: A Cross-Platform Visual-Exoskeletons System for Low-Cost Dexterous Teleoperation はコメントを受け付けていません