「cs.AI」カテゴリーアーカイブ

Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO

投稿日: 2025年5月28日作成者: jarxiv

要約アクティブな知覚としても知られるアクティブビジョンは、タスク関連の情報を収 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

LazyVLM: Neuro-Symbolic Approach to Video Analytics

投稿日: 2025年5月28日作成者: jarxiv

要約現在のビデオ分析アプローチは、柔軟性と効率性の基本的なトレードオフに直面し … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.DB, cs.IR, cs.MM | コメントを受け付けていません

Policy Optimized Text-to-Image Pipeline Design

投稿日: 2025年5月28日作成者: jarxiv

要約テキストからイメージの生成は、単一のモノリシックモデルを超えて複雑なマルチ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Be Decisive: Noise-Induced Layouts for Multi-Subject Generation

投稿日: 2025年5月28日作成者: jarxiv

要約複数の異なる被験者を生成することは、既存のテキストから画像間拡散モデルの課 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | コメントを受け付けていません

Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers

投稿日: 2025年5月28日作成者: jarxiv

要約アカデミックポスターの世代は、科学的コミュニケーションにおいて重要でありな … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MA | コメントを受け付けていません

ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models

投稿日: 2025年5月28日作成者: jarxiv

要約ビジョン言語モデル（VLM）は、視覚コンテンツについての理解と推論において … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Equivariant Representation Learning for Symmetry-Aware Inference with Guarantees

投稿日: 2025年5月28日作成者: jarxiv

要約回帰、条件付き確率推定、および不確実性の定量化の多くの現実世界の応用では、 … 続きを読む →

カテゴリー: 43-06, cs.AI, cs.LG, cs.RO, I.2.6 | コメントを受け付けていません

MineAnyBuild: Benchmarking Spatial Planning for Open-world AI Agents

投稿日: 2025年5月28日作成者: jarxiv

要約空間計画は、空間インテリジェンスの分野で重要な部分であり、空間の観点からの … 続きを読む →

カテゴリー: cs.AI | コメントを受け付けていません

EmoNet-Face: An Expert-Annotated Benchmark for Synthetic Emotion Recognition

投稿日: 2025年5月28日作成者: jarxiv

要約効果的な人間との相互作用は、人間の感情を正確に認識して解釈するAIの能力に … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving

投稿日: 2025年5月28日作成者: jarxiv

要約エンドツーエンドの自律運転に関する研究の関心は、モジュラータスク、つまり、 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

「cs.AI」カテゴリーアーカイブ

Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO

LazyVLM: Neuro-Symbolic Approach to Video Analytics

Policy Optimized Text-to-Image Pipeline Design

Be Decisive: Noise-Induced Layouts for Multi-Subject Generation

Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers

ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models

Equivariant Representation Learning for Symmetry-Aware Inference with Guarantees

MineAnyBuild: Benchmarking Spatial Planning for Open-world AI Agents

EmoNet-Face: An Expert-Annotated Benchmark for Synthetic Emotion Recognition

DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving

最近の投稿

最近のコメント

アーカイブ

カテゴリー