cs.AI」カテゴリーアーカイブ

Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO

要約 アクティブな知覚としても知られるアクティブビジョンは、タスク関連の情報を収 … 続きを読む

カテゴリー: cs.AI, cs.CV | Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO はコメントを受け付けていません

LazyVLM: Neuro-Symbolic Approach to Video Analytics

要約 現在のビデオ分析アプローチは、柔軟性と効率性の基本的なトレードオフに直面し … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.DB, cs.IR, cs.MM | LazyVLM: Neuro-Symbolic Approach to Video Analytics はコメントを受け付けていません

Policy Optimized Text-to-Image Pipeline Design

要約 テキストからイメージの生成は、単一のモノリシックモデルを超えて複雑なマルチ … 続きを読む

カテゴリー: cs.AI, cs.CV | Policy Optimized Text-to-Image Pipeline Design はコメントを受け付けていません

Be Decisive: Noise-Induced Layouts for Multi-Subject Generation

要約 複数の異なる被験者を生成することは、既存のテキストから画像間拡散モデルの課 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | Be Decisive: Noise-Induced Layouts for Multi-Subject Generation はコメントを受け付けていません

Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers

要約 アカデミックポスターの世代は、科学的コミュニケーションにおいて重要でありな … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MA | Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers はコメントを受け付けていません

ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models

要約 ビジョン言語モデル(VLM)は、視覚コンテンツについての理解と推論において … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models はコメントを受け付けていません

Equivariant Representation Learning for Symmetry-Aware Inference with Guarantees

要約 回帰、条件付き確率推定、および不確実性の定量化の多くの現実世界の応用では、 … 続きを読む

カテゴリー: 43-06, cs.AI, cs.LG, cs.RO, I.2.6 | Equivariant Representation Learning for Symmetry-Aware Inference with Guarantees はコメントを受け付けていません

MineAnyBuild: Benchmarking Spatial Planning for Open-world AI Agents

要約 空間計画は、空間インテリジェンスの分野で重要な部分であり、空間の観点からの … 続きを読む

カテゴリー: cs.AI | MineAnyBuild: Benchmarking Spatial Planning for Open-world AI Agents はコメントを受け付けていません

EmoNet-Face: An Expert-Annotated Benchmark for Synthetic Emotion Recognition

要約 効果的な人間との相互作用は、人間の感情を正確に認識して解釈するAIの能力に … 続きを読む

カテゴリー: cs.AI, cs.CV | EmoNet-Face: An Expert-Annotated Benchmark for Synthetic Emotion Recognition はコメントを受け付けていません

DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving

要約 エンドツーエンドの自律運転に関する研究の関心は、モジュラータスク、つまり、 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving はコメントを受け付けていません