月別アーカイブ: 2025年2月

λ: A Benchmark for Data-Efficiency in Long-Horizon Indoor Mobile Manipulation Robotics

要約 長周期移動操作(MoMa)タスクを効率的に学習・実行することは、家庭や職場 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.RO | コメントする

EffoVPR: Effective Foundation Model Utilization for Visual Place Recognition

要約 視覚的場所認識(Visual Place Recognition: VPR … 続きを読む

カテゴリー: cs.AI, cs.CV | コメントする

A hierarchical semantic segmentation framework for computer vision-based bridge damage detection

要約 遠隔カメラや無人航空機(UAV)を使用したコンピュータ・ビジョン・ベースの … 続きを読む

カテゴリー: cs.CV | コメントする

On Computational Limits and Provably Efficient Criteria of Visual Autoregressive Models: A Fine-Grained Complexity Analysis

要約 最近、視覚的自己回帰($mathsf{VAR}$)モデルは、画像生成分野に … 続きを読む

カテゴリー: cs.AI, cs.CC, cs.CV, cs.LG | コメントする

RichSpace: Enriching Text-to-Video Prompt Space via Text Embedding Interpolation

要約 テキストからビデオへの生成モデルは目覚ましい進歩を遂げているが、複雑な特徴 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントする

Remote Blood Oxygen Estimation From Videos Using Neural Networks

要約 血中酸素飽和度(SpO$_2$)は呼吸機能の重要な指標であり、COVID- … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.IV | コメントする

Defeasible Visual Entailment: Benchmark, Evaluator, and Reward-Driven Optimization

要約 このタスクの目的は、追加的な更新に基づいて、画像の前提条件とテキストの仮説 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

HFGCN:Hypergraph Fusion Graph Convolutional Networks for Skeleton-Based Action Recognition

要約 近年、映像理解における重要な役割のため、行動認識が注目され、広く応用されて … 続きを読む

カテゴリー: cs.CV, cs.LG | コメントする

Prompt-Aware Controllable Shadow Removal

要約 シャドウ除去は、シャドウ領域の画像コンテンツを復元することを目的としている … 続きを読む

カテゴリー: cs.CV | コメントする

UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent

要約 視覚-言語-行動(VLA)モデルの最近の進歩は、汎化能力を向上させるために … 続きを読む

カテゴリー: cs.AI, cs.CV | コメントする