-
最近の投稿
- Towards Generalizable Vision-Language Robotic Manipulation: A Benchmark and LLM-guided 3D Policy
- Haptic-ACT: Bridging Human Intuition with Compliant Robotic Manipulation via Immersive VR
- Task-Aware Robotic Grasping by evaluating Quality Diversity Solutions through Foundation Models
- VDT-Auto: End-to-end Autonomous Driving with VLM-Guided Diffusion Transformers
- ViViDex: Learning Vision-based Dexterous Manipulation from Human Videos
-
最近のコメント
表示できるコメントはありません。 cs.AI (34550) cs.CL (26107) cs.CR (2648) cs.CV (40394) cs.LG (39550) cs.RO (20191) cs.SY (3066) eess.IV (4803) eess.SY (3060) stat.ML (5206)
月別アーカイブ: 2022年11月
Bridging the Gap between Object and Image-level Representations for Open-Vocabulary Detection
要約 既存のオープン語彙オブジェクト検出器は通常、さまざまな形式の弱い監督を利用 … 続きを読む
RGB no more: Minimally-decoded JPEG Vision Transformers
要約 コンピュータ ビジョン用のほとんどのニューラル ネットワークは、RGB 画 … 続きを読む
NeuralLift-360: Lifting An In-the-wild 2D Photo to A 3D Object with 360° Views
要約 仮想現実と拡張現実 (XR) により、3D コンテンツの需要が高まっていま … 続きを読む
カテゴリー: cs.CV
NeuralLift-360: Lifting An In-the-wild 2D Photo to A 3D Object with 360° Views はコメントを受け付けていません
Rethinking Transfer Learning for Medical Image Classification
要約 事前トレーニング済みのディープ モデルからの転移学習 (TL) は、最新の … 続きを読む
Birds of a Feather Trust Together: Knowing When to Trust a Classifier via Adaptive Neighborhood Aggregation
要約 分類器による予測がいつ信頼できるかを知るにはどうすればよいでしょうか? こ … 続きを読む
DiffPose: Multi-hypothesis Human Pose Estimation using Diffusion models
要約 従来、単眼 3D 人間の姿勢推定では、機械学習モデルを使用して、特定の入力 … 続きを読む
カテゴリー: cs.CV
DiffPose: Multi-hypothesis Human Pose Estimation using Diffusion models はコメントを受け付けていません
Taming a Generative Model
要約 生成モデルはますます強力になり、非常にリアルな画像を合成できるようになって … 続きを読む
カテゴリー: cs.CV
Taming a Generative Model はコメントを受け付けていません
Abstract Visual Reasoning with Tangram Shapes
要約 人間と機械の抽象的な視覚的推論を研究するためのリソースである KiloGr … 続きを読む
Finding Differences Between Transformers and ConvNets Using Counterfactual Simulation Testing
要約 最新のディープ ニューラル ネットワークは、静的テスト セットで評価される … 続きを読む
Improving Commonsense in Vision-Language Models via Knowledge Graph Riddles
要約 このホワイト ペーパーでは、最近普及している視覚言語 (VL) モデルの常 … 続きを読む