cs.CV」カテゴリーアーカイブ

RH20T-P: A Primitive-Level Robotic Dataset Towards Composable Generalization Agents

要約 分布外のタスクを解く際の汎化性を達成することは、ロボット操作学習の究極の目 … 続きを読む

カテゴリー: cs.CV, cs.RO | RH20T-P: A Primitive-Level Robotic Dataset Towards Composable Generalization Agents はコメントを受け付けていません

Benchmarking and Improving Bird’s Eye View Perception Robustness in Autonomous Driving

要約 最近の鳥瞰図(BEV)表現の進歩は、車載3D知覚に著しい可能性を示している … 続きを読む

カテゴリー: cs.CV, cs.RO | Benchmarking and Improving Bird’s Eye View Perception Robustness in Autonomous Driving はコメントを受け付けていません

Multi-Modal Data-Efficient 3D Scene Understanding for Autonomous Driving

要約 効率的なデータ活用は、自律走行における3Dシーン理解を進める上で非常に重要 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | Multi-Modal Data-Efficient 3D Scene Understanding for Autonomous Driving はコメントを受け付けていません

Point-LN: A Lightweight Framework for Efficient Point Cloud Classification Using Non-Parametric Positional Encoding

要約 効率的な3D点群分類のために設計された、新しい軽量フレームワークであるPo … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Point-LN: A Lightweight Framework for Efficient Point Cloud Classification Using Non-Parametric Positional Encoding はコメントを受け付けていません

EffoVPR: Effective Foundation Model Utilization for Visual Place Recognition

要約 視覚的場所認識(Visual Place Recognition: VPR … 続きを読む

カテゴリー: cs.AI, cs.CV | EffoVPR: Effective Foundation Model Utilization for Visual Place Recognition はコメントを受け付けていません

A hierarchical semantic segmentation framework for computer vision-based bridge damage detection

要約 遠隔カメラや無人航空機(UAV)を使用したコンピュータ・ビジョン・ベースの … 続きを読む

カテゴリー: cs.CV | A hierarchical semantic segmentation framework for computer vision-based bridge damage detection はコメントを受け付けていません

On Computational Limits and Provably Efficient Criteria of Visual Autoregressive Models: A Fine-Grained Complexity Analysis

要約 最近、視覚的自己回帰($mathsf{VAR}$)モデルは、画像生成分野に … 続きを読む

カテゴリー: cs.AI, cs.CC, cs.CV, cs.LG | On Computational Limits and Provably Efficient Criteria of Visual Autoregressive Models: A Fine-Grained Complexity Analysis はコメントを受け付けていません

RichSpace: Enriching Text-to-Video Prompt Space via Text Embedding Interpolation

要約 テキストからビデオへの生成モデルは目覚ましい進歩を遂げているが、複雑な特徴 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | RichSpace: Enriching Text-to-Video Prompt Space via Text Embedding Interpolation はコメントを受け付けていません

Remote Blood Oxygen Estimation From Videos Using Neural Networks

要約 血中酸素飽和度(SpO$_2$)は呼吸機能の重要な指標であり、COVID- … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.IV | Remote Blood Oxygen Estimation From Videos Using Neural Networks はコメントを受け付けていません

Defeasible Visual Entailment: Benchmark, Evaluator, and Reward-Driven Optimization

要約 このタスクの目的は、追加的な更新に基づいて、画像の前提条件とテキストの仮説 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Defeasible Visual Entailment: Benchmark, Evaluator, and Reward-Driven Optimization はコメントを受け付けていません