cs.CV」カテゴリーアーカイブ

BIMBA: Selective-Scan Compression for Long-Range Video Question Answering

要約 長いビデオのビデオ質問応答(VQA)は、関連する情報を抽出し、多くの冗長フ … 続きを読む

カテゴリー: cs.CV | BIMBA: Selective-Scan Compression for Long-Range Video Question Answering はコメントを受け付けていません

HERMES: A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation

要約 ドライビングワールドモデル(DWM)は、将来のシーン予測を可能にすることに … 続きを読む

カテゴリー: cs.CV | HERMES: A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation はコメントを受け付けていません

SimLingo: Vision-Only Closed-Loop Autonomous Driving with Language-Action Alignment

要約 大規模な言語モデル(LLM)を自律運転に統合することは、一般化と説明可能性 … 続きを読む

カテゴリー: cs.CV, cs.RO | SimLingo: Vision-Only Closed-Loop Autonomous Driving with Language-Action Alignment はコメントを受け付けていません

PISA Experiments: Exploring Physics Post-Training for Video Diffusion Models by Watching Stuff Drop

要約 大規模な事前訓練を受けたビデオ生成モデルは、コンテンツの作成に優れています … 続きを読む

カテゴリー: cs.CV | PISA Experiments: Exploring Physics Post-Training for Video Diffusion Models by Watching Stuff Drop はコメントを受け付けていません

RewardSDS: Aligning Score Distillation via Reward-Weighted Sampling

要約 スコア蒸留サンプリング(SDS)は、テキストから3Dの世代などのタスクに2 … 続きを読む

カテゴリー: cs.CV | RewardSDS: Aligning Score Distillation via Reward-Weighted Sampling はコメントを受け付けていません

OmniPaint: Mastering Object-Oriented Editing via Disentangled Insertion-Removal Inpainting

要約 拡散ベースの生成モデルは、オブジェクト指向の画像編集に革命をもたらしました … 続きを読む

カテゴリー: cs.CV | OmniPaint: Mastering Object-Oriented Editing via Disentangled Insertion-Removal Inpainting はコメントを受け付けていません

MsaMIL-Net: An End-to-End Multi-Scale Aware Multiple Instance Learning Network for Efficient Whole Slide Image Classification

要約 バッグベースの複数インスタンス学習(MIL)アプローチは、スライド画像全体 … 続きを読む

カテゴリー: cs.AI, cs.CV | MsaMIL-Net: An End-to-End Multi-Scale Aware Multiple Instance Learning Network for Efficient Whole Slide Image Classification はコメントを受け付けていません

Lost & Found: Tracking Changes from Egocentric Observations in 3D Dynamic Scene Graphs

要約 最近のアプローチは、静的再構成のセグメンテーションに焦点を合わせており、そ … 続きを読む

カテゴリー: cs.CV, cs.RO | Lost & Found: Tracking Changes from Egocentric Observations in 3D Dynamic Scene Graphs はコメントを受け付けていません

HASARD: A Benchmark for Vision-Based Safe Reinforcement Learning in Embodied Agents

要約 強化学習(RL)を通じて安全な自律システムを進めるには、パフォーマンスを評 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | HASARD: A Benchmark for Vision-Based Safe Reinforcement Learning in Embodied Agents はコメントを受け付けていません

DexGrasp Anything: Towards Universal Robotic Dexterous Grasping with Physics Awareness

要約 あらゆるオブジェクトをつかむことができる器用な手は、汎用具体化されたインテ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | DexGrasp Anything: Towards Universal Robotic Dexterous Grasping with Physics Awareness はコメントを受け付けていません