-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
BIMBA: Selective-Scan Compression for Long-Range Video Question Answering
要約 長いビデオのビデオ質問応答(VQA)は、関連する情報を抽出し、多くの冗長フ … 続きを読む
カテゴリー: cs.CV
BIMBA: Selective-Scan Compression for Long-Range Video Question Answering はコメントを受け付けていません
HERMES: A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation
要約 ドライビングワールドモデル(DWM)は、将来のシーン予測を可能にすることに … 続きを読む
カテゴリー: cs.CV
HERMES: A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation はコメントを受け付けていません
SimLingo: Vision-Only Closed-Loop Autonomous Driving with Language-Action Alignment
要約 大規模な言語モデル(LLM)を自律運転に統合することは、一般化と説明可能性 … 続きを読む
PISA Experiments: Exploring Physics Post-Training for Video Diffusion Models by Watching Stuff Drop
要約 大規模な事前訓練を受けたビデオ生成モデルは、コンテンツの作成に優れています … 続きを読む
カテゴリー: cs.CV
PISA Experiments: Exploring Physics Post-Training for Video Diffusion Models by Watching Stuff Drop はコメントを受け付けていません
RewardSDS: Aligning Score Distillation via Reward-Weighted Sampling
要約 スコア蒸留サンプリング(SDS)は、テキストから3Dの世代などのタスクに2 … 続きを読む
カテゴリー: cs.CV
RewardSDS: Aligning Score Distillation via Reward-Weighted Sampling はコメントを受け付けていません
OmniPaint: Mastering Object-Oriented Editing via Disentangled Insertion-Removal Inpainting
要約 拡散ベースの生成モデルは、オブジェクト指向の画像編集に革命をもたらしました … 続きを読む
カテゴリー: cs.CV
OmniPaint: Mastering Object-Oriented Editing via Disentangled Insertion-Removal Inpainting はコメントを受け付けていません
MsaMIL-Net: An End-to-End Multi-Scale Aware Multiple Instance Learning Network for Efficient Whole Slide Image Classification
要約 バッグベースの複数インスタンス学習(MIL)アプローチは、スライド画像全体 … 続きを読む
Lost & Found: Tracking Changes from Egocentric Observations in 3D Dynamic Scene Graphs
要約 最近のアプローチは、静的再構成のセグメンテーションに焦点を合わせており、そ … 続きを読む
HASARD: A Benchmark for Vision-Based Safe Reinforcement Learning in Embodied Agents
要約 強化学習(RL)を通じて安全な自律システムを進めるには、パフォーマンスを評 … 続きを読む
DexGrasp Anything: Towards Universal Robotic Dexterous Grasping with Physics Awareness
要約 あらゆるオブジェクトをつかむことができる器用な手は、汎用具体化されたインテ … 続きを読む