cs.CV」カテゴリーアーカイブ

Exploring the Effectiveness of Object-Centric Representations in Visual Question Answering: Comparative Insights with Foundation Models

要約 物体中心(OC)表現は、視覚シーンを離散的な物体の構成としてモデル化するも … 続きを読む

カテゴリー: cs.CV, cs.LG | コメントする

Foundation Models — A Panacea for Artificial Intelligence in Pathology?

要約 病理診断における人工知能(AI)の役割は、診断の補助から、全スライド画像( … 続きを読む

カテゴリー: cs.AI, cs.CV | コメントする

MIGE: A Unified Framework for Multimodal Instruction-Based Image Generation and Editing

要約 拡散に基づく画像生成は大きく進歩したが、被写体駆動型生成と指示に基づく編集 … 続きを読む

カテゴリー: cs.CV | コメントする

FlexDrive: Toward Trajectory Flexibility in Driving Scene Reconstruction and Rendering

要約 ドライビングシーンの再構成とレンダリングは、3Dガウススプラッティングを用 … 続きを読む

カテゴリー: cs.CV | コメントする

Fast and Accurate Gigapixel Pathological Image Classification with Hierarchical Distillation Multi-Instance Learning

要約 多インスタンス学習(Multi-Instance Learning: MI … 続きを読む

カテゴリー: cs.CV | コメントする

Stabilizing Reinforcement Learning in Differentiable Multiphysics Simulation

要約 GPUベースの並列シミュレーションの最近の進歩により、開業医は大量のデータ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントする

Subtask-Aware Visual Reward Learning from Segmented Demonstrations

要約 強化学習(RL)エージェントは、さまざまなロボットタスクにわたって可能性を … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントする

EDENet: Echo Direction Encoding Network for Place Recognition Based on Ground Penetrating Radar

要約 地上浸透レーダー(GPR)ベースのローカリゼーションは、安定した地下機能を … 続きを読む

カテゴリー: cs.CV, cs.RO | コメントする

OpenFly: A Versatile Toolchain and Large-scale Benchmark for Aerial Vision-Language Navigation

要約 Vision-Language Navigation(VLN)は、言語の指 … 続きを読む

カテゴリー: cs.CV, cs.RO | コメントする

Attention-Guided Integration of CLIP and SAM for Precise Object Masking in Robotic Manipulation

要約 このペーパーでは、コンビニエンスストアのマスキング製品の特定のドメイン内で … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | コメントする