「cs.CV」カテゴリーアーカイブ

BIMBA: Selective-Scan Compression for Long-Range Video Question Answering

投稿日: 2025年3月13日作成者: jarxiv

要約長いビデオのビデオ質問応答（VQA）は、関連する情報を抽出し、多くの冗長フ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

HERMES: A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation

投稿日: 2025年3月13日作成者: jarxiv

要約ドライビングワールドモデル（DWM）は、将来のシーン予測を可能にすることに … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SimLingo: Vision-Only Closed-Loop Autonomous Driving with Language-Action Alignment

投稿日: 2025年3月13日作成者: jarxiv

要約大規模な言語モデル（LLM）を自律運転に統合することは、一般化と説明可能性 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

PISA Experiments: Exploring Physics Post-Training for Video Diffusion Models by Watching Stuff Drop

投稿日: 2025年3月13日作成者: jarxiv

要約大規模な事前訓練を受けたビデオ生成モデルは、コンテンツの作成に優れています … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

RewardSDS: Aligning Score Distillation via Reward-Weighted Sampling

投稿日: 2025年3月13日作成者: jarxiv

要約スコア蒸留サンプリング（SDS）は、テキストから3Dの世代などのタスクに2 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

OmniPaint: Mastering Object-Oriented Editing via Disentangled Insertion-Removal Inpainting

投稿日: 2025年3月13日作成者: jarxiv

要約拡散ベースの生成モデルは、オブジェクト指向の画像編集に革命をもたらしました … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MsaMIL-Net: An End-to-End Multi-Scale Aware Multiple Instance Learning Network for Efficient Whole Slide Image Classification

投稿日: 2025年3月13日作成者: jarxiv

要約バッグベースの複数インスタンス学習（MIL）アプローチは、スライド画像全体 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Lost & Found: Tracking Changes from Egocentric Observations in 3D Dynamic Scene Graphs

投稿日: 2025年3月12日作成者: jarxiv

要約最近のアプローチは、静的再構成のセグメンテーションに焦点を合わせており、そ … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

HASARD: A Benchmark for Vision-Based Safe Reinforcement Learning in Embodied Agents

投稿日: 2025年3月12日作成者: jarxiv

要約強化学習（RL）を通じて安全な自律システムを進めるには、パフォーマンスを評 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

DexGrasp Anything: Towards Universal Robotic Dexterous Grasping with Physics Awareness

投稿日: 2025年3月12日作成者: jarxiv

要約あらゆるオブジェクトをつかむことができる器用な手は、汎用具体化されたインテ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

BIMBA: Selective-Scan Compression for Long-Range Video Question Answering

HERMES: A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation

SimLingo: Vision-Only Closed-Loop Autonomous Driving with Language-Action Alignment

PISA Experiments: Exploring Physics Post-Training for Video Diffusion Models by Watching Stuff Drop

RewardSDS: Aligning Score Distillation via Reward-Weighted Sampling

OmniPaint: Mastering Object-Oriented Editing via Disentangled Insertion-Removal Inpainting

MsaMIL-Net: An End-to-End Multi-Scale Aware Multiple Instance Learning Network for Efficient Whole Slide Image Classification

Lost & Found: Tracking Changes from Egocentric Observations in 3D Dynamic Scene Graphs

HASARD: A Benchmark for Vision-Based Safe Reinforcement Learning in Embodied Agents

DexGrasp Anything: Towards Universal Robotic Dexterous Grasping with Physics Awareness

最近の投稿

最近のコメント

アーカイブ

カテゴリー