cs.CV」カテゴリーアーカイブ

Efficient Driving Behavior Narration and Reasoning on Edge Device Using Large Language Models

要約 強力な推論機能を備えたディープラーニング アーキテクチャは、自動運転技術の … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | Efficient Driving Behavior Narration and Reasoning on Edge Device Using Large Language Models はコメントを受け付けていません

World to Code: Multi-modal Data Generation via Self-Instructed Compositional Captioning and Filtering

要約 視覚言語モデル (VLM) の最近の進歩と、高品質のマルチモーダル アライ … 続きを読む

カテゴリー: cs.AI, cs.CV | World to Code: Multi-modal Data Generation via Self-Instructed Compositional Captioning and Filtering はコメントを受け付けていません

POMONAG: Pareto-Optimal Many-Objective Neural Architecture Generator

要約 Neural Architecture Search (NAS) はニュー … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | POMONAG: Pareto-Optimal Many-Objective Neural Architecture Generator はコメントを受け付けていません

COLLAGE: Collaborative Human-Agent Interaction Generation using Hierarchical Latent Diffusion and Language Models

要約 我々は、大規模言語モデル (LLM) と階層型モーション固有のベクトル量子 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | COLLAGE: Collaborative Human-Agent Interaction Generation using Hierarchical Latent Diffusion and Language Models はコメントを受け付けていません

Eliciting In-Context Learning in Vision-Language Models for Videos Through Curated Data Distributional Properties

要約 大規模言語モデル (LLM) の最近の成功の背後にある主な理由は、その \ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Eliciting In-Context Learning in Vision-Language Models for Videos Through Curated Data Distributional Properties はコメントを受け付けていません

LaMMA-P: Generalizable Multi-Agent Long-Horizon Task Allocation and Planning with LM-Driven PDDL Planner

要約 言語モデル (LM) は自然言語を理解する強力な能力を備えており、人間の指 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MA, cs.RO | LaMMA-P: Generalizable Multi-Agent Long-Horizon Task Allocation and Planning with LM-Driven PDDL Planner はコメントを受け付けていません

Continuously Improving Mobile Manipulation with Autonomous Real-World RL

要約 我々は、広範な機器や人間による監視なしでポリシーを学習できる、モバイル操作 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO, cs.SY, eess.SY | Continuously Improving Mobile Manipulation with Autonomous Real-World RL はコメントを受け付けていません

VideoPatchCore: An Effective Method to Memorize Normality for Video Anomaly Detection

要約 ビデオ異常検出 (VAD) は、コンピューター ビジョン内のビデオ分析と監 … 続きを読む

カテゴリー: cs.CV | VideoPatchCore: An Effective Method to Memorize Normality for Video Anomaly Detection はコメントを受け付けていません

UniEmoX: Cross-modal Semantic-Guided Large-Scale Pretraining for Universal Scene Emotion Perception

要約 視覚的感情分析は、コンピューター ビジョンと心理学の両方において重要な研究 … 続きを読む

カテゴリー: cs.AI, cs.CV | UniEmoX: Cross-modal Semantic-Guided Large-Scale Pretraining for Universal Scene Emotion Perception はコメントを受け付けていません

DeRainGS: Gaussian Splatting for Enhanced Scene Reconstruction in Rainy Environments

要約 雨の悪条件下での再建は、視界の低下と視覚認識の歪みにより、重大な課題を引き … 続きを読む

カテゴリー: cs.CV | DeRainGS: Gaussian Splatting for Enhanced Scene Reconstruction in Rainy Environments はコメントを受け付けていません