cs.CV」カテゴリーアーカイブ

StyleAdapter: A Unified Stylized Image Generation Model

要約 この作業は、特定のスタイルの参照画像と提供されるテキスト説明のコンテンツを … 続きを読む

カテゴリー: cs.CV | StyleAdapter: A Unified Stylized Image Generation Model はコメントを受け付けていません

CARES: A Comprehensive Benchmark of Trustworthiness in Medical Vision Language Models

要約 人工知能は、特に Medical Large Vision Languag … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.CY, cs.LG | CARES: A Comprehensive Benchmark of Trustworthiness in Medical Vision Language Models はコメントを受け付けていません

OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

要約 GUI エージェントを構築する既存の取り組みは、GPT-4o や Gemi … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.HC | OS-ATLAS: A Foundation Action Model for Generalist GUI Agents はコメントを受け付けていません

DiaMond: Dementia Diagnosis with Multi-Modal Vision Transformers Using MRI and PET

要約 認知症、特にアルツハイマー病 (AD) と前頭側頭型認知症 (FTD) の … 続きを読む

カテゴリー: cs.AI, cs.CV | DiaMond: Dementia Diagnosis with Multi-Modal Vision Transformers Using MRI and PET はコメントを受け付けていません

Aligning Audio-Visual Joint Representations with an Agentic Workflow

要約 ビジュアル コンテンツと付随するオーディオ信号は、オーディオビジュアル ( … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | Aligning Audio-Visual Joint Representations with an Agentic Workflow はコメントを受け付けていません

LGU-SLAM: Learnable Gaussian Uncertainty Matching with Deformable Correlation Sampling for Deep Visual SLAM

要約 DROID などの深層視覚同時位置特定およびマッピング (SLAM) 技術 … 続きを読む

カテゴリー: cs.CV | LGU-SLAM: Learnable Gaussian Uncertainty Matching with Deformable Correlation Sampling for Deep Visual SLAM はコメントを受け付けていません

Super-resolution in disordered media using neural networks

要約 我々は、大規模で多様なデータセットを活用して、強く散乱する媒体における周囲 … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.IV | Super-resolution in disordered media using neural networks はコメントを受け付けていません

PointRecon: Online Point-based 3D Reconstruction via Ray-based 2D-3D Matching

要約 我々は、ポーズをとった単眼RGBビデオからの新しいオンラインのポイントベー … 続きを読む

カテゴリー: cs.CV | PointRecon: Online Point-based 3D Reconstruction via Ray-based 2D-3D Matching はコメントを受け付けていません

bit2bit: 1-bit quanta video reconstruction via self-supervised photon prediction

要約 SPAD アレイなどの Quanta イメージ センサーは、数ナノ秒という … 続きを読む

カテゴリー: 68T45, cs.CV, cs.LG, eess.IV, I.2.10 | bit2bit: 1-bit quanta video reconstruction via self-supervised photon prediction はコメントを受け付けていません

Is Your LiDAR Placement Optimized for 3D Scene Understanding?

要約 前例のない状況下での運転認識システムの信頼性は、実用化にとって非常に重要で … 続きを読む

カテゴリー: cs.CV, cs.RO | Is Your LiDAR Placement Optimized for 3D Scene Understanding? はコメントを受け付けていません