cs.CV」カテゴリーアーカイブ

Efficient Driving Behavior Narration and Reasoning on Edge Device Using Large Language Models

要約 強力な推論機能を備えたディープラーニング アーキテクチャは、自動運転技術の … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | コメントする

World to Code: Multi-modal Data Generation via Self-Instructed Compositional Captioning and Filtering

要約 視覚言語モデル (VLM) の最近の進歩と、高品質のマルチモーダル アライ … 続きを読む

カテゴリー: cs.AI, cs.CV | コメントする

POMONAG: Pareto-Optimal Many-Objective Neural Architecture Generator

要約 Neural Architecture Search (NAS) はニュー … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

COLLAGE: Collaborative Human-Agent Interaction Generation using Hierarchical Latent Diffusion and Language Models

要約 我々は、大規模言語モデル (LLM) と階層型モーション固有のベクトル量子 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | コメントする

Eliciting In-Context Learning in Vision-Language Models for Videos Through Curated Data Distributional Properties

要約 大規模言語モデル (LLM) の最近の成功の背後にある主な理由は、その \ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | コメントする

LaMMA-P: Generalizable Multi-Agent Long-Horizon Task Allocation and Planning with LM-Driven PDDL Planner

要約 言語モデル (LM) は自然言語を理解する強力な能力を備えており、人間の指 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MA, cs.RO | コメントする

Continuously Improving Mobile Manipulation with Autonomous Real-World RL

要約 我々は、広範な機器や人間による監視なしでポリシーを学習できる、モバイル操作 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO, cs.SY, eess.SY | コメントする

VideoPatchCore: An Effective Method to Memorize Normality for Video Anomaly Detection

要約 ビデオ異常検出 (VAD) は、コンピューター ビジョン内のビデオ分析と監 … 続きを読む

カテゴリー: cs.CV | コメントする

UniEmoX: Cross-modal Semantic-Guided Large-Scale Pretraining for Universal Scene Emotion Perception

要約 視覚的感情分析は、コンピューター ビジョンと心理学の両方において重要な研究 … 続きを読む

カテゴリー: cs.AI, cs.CV | コメントする

DeRainGS: Gaussian Splatting for Enhanced Scene Reconstruction in Rainy Environments

要約 雨の悪条件下での再建は、視界の低下と視覚認識の歪みにより、重大な課題を引き … 続きを読む

カテゴリー: cs.CV | コメントする