-
最近の投稿
- DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning
- Coarse-to-fine Q-Network with Action Sequence for Data-Efficient Robot Learning
- SeePerSea: Multi-modal Perception Dataset of In-water Objects for Autonomous Surface Vehicles
- FastUMI: A Scalable and Hardware-Independent Universal Manipulation Interface with Dataset
- Gaze-based Task Decomposition for Robot Manipulation in Imitation Learning
-
最近のコメント
表示できるコメントはありません。 cs.AI (33149) cs.CL (25043) cs.CR (2564) cs.CV (39236) cs.LG (38060) cs.RO (19259) cs.SY (2948) eess.IV (4699) eess.SY (2942) stat.ML (5009)
月別アーカイブ: 2025年2月
λ: A Benchmark for Data-Efficiency in Long-Horizon Indoor Mobile Manipulation Robotics
要約 長周期移動操作(MoMa)タスクを効率的に学習・実行することは、家庭や職場 … 続きを読む
EffoVPR: Effective Foundation Model Utilization for Visual Place Recognition
要約 視覚的場所認識(Visual Place Recognition: VPR … 続きを読む
A hierarchical semantic segmentation framework for computer vision-based bridge damage detection
要約 遠隔カメラや無人航空機(UAV)を使用したコンピュータ・ビジョン・ベースの … 続きを読む
On Computational Limits and Provably Efficient Criteria of Visual Autoregressive Models: A Fine-Grained Complexity Analysis
要約 最近、視覚的自己回帰($mathsf{VAR}$)モデルは、画像生成分野に … 続きを読む
RichSpace: Enriching Text-to-Video Prompt Space via Text Embedding Interpolation
要約 テキストからビデオへの生成モデルは目覚ましい進歩を遂げているが、複雑な特徴 … 続きを読む
Remote Blood Oxygen Estimation From Videos Using Neural Networks
要約 血中酸素飽和度(SpO$_2$)は呼吸機能の重要な指標であり、COVID- … 続きを読む
Defeasible Visual Entailment: Benchmark, Evaluator, and Reward-Driven Optimization
要約 このタスクの目的は、追加的な更新に基づいて、画像の前提条件とテキストの仮説 … 続きを読む
HFGCN:Hypergraph Fusion Graph Convolutional Networks for Skeleton-Based Action Recognition
要約 近年、映像理解における重要な役割のため、行動認識が注目され、広く応用されて … 続きを読む
Prompt-Aware Controllable Shadow Removal
要約 シャドウ除去は、シャドウ領域の画像コンテンツを復元することを目的としている … 続きを読む
UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent
要約 視覚-言語-行動(VLA)モデルの最近の進歩は、汎化能力を向上させるために … 続きを読む