cs.CV」カテゴリーアーカイブ

Dual-Stage Cross-Modal Network with Dynamic Feature Fusion for Emotional Mimicry Intensity Estimation

要約 感情的な模倣強度(EMI)推定は、人間の社会的行動を理解し、人間とコンピュ … 続きを読む

カテゴリー: cs.AI, cs.CV | Dual-Stage Cross-Modal Network with Dynamic Feature Fusion for Emotional Mimicry Intensity Estimation はコメントを受け付けていません

The Curse of Conditions: Analyzing and Improving Optimal Transport for Conditional Flow-Based Generation

要約 ミニバッチ最適な輸送カップリングは、無条件のフローマッチングでパスをまっす … 続きを読む

カテゴリー: cs.CV, cs.LG | The Curse of Conditions: Analyzing and Improving Optimal Transport for Conditional Flow-Based Generation はコメントを受け付けていません

Post-disaster building indoor damage and survivor detection using autonomous path planning and deep learning with unmanned aerial vehicles

要約 地震などの自然災害に対する迅速な対応は、民事インフラの安全性を確保し、犠牲 … 続きを読む

カテゴリー: cs.CV, cs.RO | Post-disaster building indoor damage and survivor detection using autonomous path planning and deep learning with unmanned aerial vehicles はコメントを受け付けていません

V2X-ReaLO: An Open Online Framework and Dataset for Cooperative Perception in Reality

要約 車両からすべての(v2x)コミュニケーションによって可能になった協調的認識 … 続きを読む

カテゴリー: cs.CV, cs.RO | V2X-ReaLO: An Open Online Framework and Dataset for Cooperative Perception in Reality はコメントを受け付けていません

SmartWay: Enhanced Waypoint Prediction and Backtracking for Zero-Shot Vision-and-Language Navigation

要約 継続的な環境でのビジョンと言語のナビゲーション(VLN)には、制約のない3 … 続きを読む

カテゴリー: cs.CV, cs.RO | SmartWay: Enhanced Waypoint Prediction and Backtracking for Zero-Shot Vision-and-Language Navigation はコメントを受け付けていません

LaMMA-P: Generalizable Multi-Agent Long-Horizon Task Allocation and Planning with LM-Driven PDDL Planner

要約 言語モデル(LMS)は、自然言語を理解するための強力な能力を備えており、人 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MA, cs.RO | LaMMA-P: Generalizable Multi-Agent Long-Horizon Task Allocation and Planning with LM-Driven PDDL Planner はコメントを受け付けていません

AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems

要約 一般化されたロボット操作のためのスケーラブルなロボットデータが実際の課題に … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems はコメントを受け付けていません

ECBench: Can Multi-modal Foundation Models Understand the Egocentric World? A Holistic Embodied Cognition Benchmark

要約 大規模な視覚言語モデル(LVLMS)によるロボットの一般化の強化がますます … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | ECBench: Can Multi-modal Foundation Models Understand the Egocentric World? A Holistic Embodied Cognition Benchmark はコメントを受け付けていません

GS-SDF: LiDAR-Augmented Gaussian Splatting and Neural SDF for Geometrically Consistent Rendering and Reconstruction

要約 デジタル双子は、自律運転と具体化された人工知能の開発の基本です。 ただし、 … 続きを読む

カテゴリー: cs.CV, cs.RO | GS-SDF: LiDAR-Augmented Gaussian Splatting and Neural SDF for Geometrically Consistent Rendering and Reconstruction はコメントを受け付けていません

PhysVLM: Enabling Visual Language Models to Understand Robotic Physical Reachability

要約 環境とロボットの物理的な到達可能性を理解することは、タスクの実行に不可欠で … 続きを読む

カテゴリー: cs.CV, cs.RO | PhysVLM: Enabling Visual Language Models to Understand Robotic Physical Reachability はコメントを受け付けていません