cs.AI」カテゴリーアーカイブ

RestoreVAR: Visual Autoregressive Generation for All-in-One Image Restoration

要約 安定した拡散などの潜在的な拡散モデル(LDMS)の使用は、オールインワン画 … 続きを読む

カテゴリー: cs.AI, cs.CV | RestoreVAR: Visual Autoregressive Generation for All-in-One Image Restoration はコメントを受け付けていません

FDBPL: Faster Distillation-Based Prompt Learning for Region-Aware Vision-Language Models Adaptation

要約 視覚言語モデル(VLM)をダウンストリームタスクに適応させるために広く採用 … 続きを読む

カテゴリー: cs.AI, cs.CV | FDBPL: Faster Distillation-Based Prompt Learning for Region-Aware Vision-Language Models Adaptation はコメントを受け付けていません

Multi-Faceted Multimodal Monosemanticity

要約 人間は、ビジョン、言語、スピーチなどの複数のモダリティを通じて世界を経験し … 続きを読む

カテゴリー: cs.AI, cs.CV | Multi-Faceted Multimodal Monosemanticity はコメントを受け付けていません

Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding

要約 長型のビデオ理解は、広範な時間空間的な複雑さと、そのような拡張されたコンテ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding はコメントを受け付けていません

CXReasonBench: A Benchmark for Evaluating Structured Diagnostic Reasoning in Chest X-rays

要約 大規模な視覚言語モデル(LVLMS)の最近の進捗により、レポート生成や視覚 … 続きを読む

カテゴリー: cs.AI, cs.CV | CXReasonBench: A Benchmark for Evaluating Structured Diagnostic Reasoning in Chest X-rays はコメントを受け付けていません

A Clinician-Friendly Platform for Ophthalmic Image Analysis Without Technical Barriers

要約 人工知能(AI)は、医療イメージング診断において顕著な可能性を示しています … 続きを読む

カテゴリー: cs.AI, cs.CV | A Clinician-Friendly Platform for Ophthalmic Image Analysis Without Technical Barriers はコメントを受け付けていません

MMXU: A Multi-Modal and Multi-X-ray Understanding Dataset for Disease Progression

要約 大規模な視覚言語モデル(LVLMS)は、特に視覚的な質問応答(MEDVQA … 続きを読む

カテゴリー: cs.AI, cs.CV | MMXU: A Multi-Modal and Multi-X-ray Understanding Dataset for Disease Progression はコメントを受け付けていません

VideoGameBench: Can Vision-Language Models complete popular video games?

要約 ビジョン言語モデル(VLMS)は、人間にとって挑戦的なコーディングと数学の … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | VideoGameBench: Can Vision-Language Models complete popular video games? はコメントを受け付けていません

WonderPlay: Dynamic 3D Scene Generation from a Single Image and Actions

要約 WonderPlayは、単一の画像からアクションコンディショニングされた動 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR | WonderPlay: Dynamic 3D Scene Generation from a Single Image and Actions はコメントを受け付けていません

Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models

要約 強化学習(RL)は、ビジョン言語モデル(VLM)の推論を強化するための効果 … 続きを読む

カテゴリー: cs.AI, cs.CV | Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models はコメントを受け付けていません