-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
CorrI2P: Deep Image-to-Point Cloud Registration via Dense Correspondence
要約 対応する 3D 点群で 2D 画像をローカライズする重要なステップは、それ … 続きを読む
Learning to Evaluate Performance of Multi-modal Semantic Localization
要約 セマンティック ローカリゼーション (SeLo) は、テキストなどのセマン … 続きを読む
AutoLV: Automatic Lecture Video Generator
要約 注釈付きスライド、講師の参照音声、講師の参照ポートレート ビデオから直接、 … 続きを読む
Rethinking Data Augmentation for Robust Visual Question Answering
要約 元のトレーニング セットを超える追加のトレーニング サンプルを生成する D … 続きを読む
Learning to Evaluate Performance of Multi-modal Semantic Localization
要約 セマンティック ローカリゼーション (SeLo) は、テキストなどのセマン … 続きを読む
Learning to Evaluate Performance of Multi-modal Semantic Localization
要約 セマンティック ローカリゼーション (SeLo) は、テキストなどのセマン … 続きを読む
MVPTR: Multi-Level Semantic Alignment for Vision-Language Pre-Training via Multi-Stage Learning
要約 以前のビジョン言語事前トレーニング モデルは、主にトークンとオブジェクト … 続きを読む
Time-of-Day Neural Style Transfer for Architectural Photographs
要約 建築写真は、建物や構造物を前景に、ドラマチックな照明を背景に捉えることに焦 … 続きを読む
Estimating Visual Information From Audio Through Manifold Learning
要約 オーディオ信号のみを使用してシーンに関する視覚情報を抽出するための新しいフ … 続きを読む