cs.CV」カテゴリーアーカイブ

Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks

要約 私たちは、画像とビデオの両方の領域レベルの理解を容易にするように設計された … 続きを読む

カテゴリー: cs.CV | Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks はコメントを受け付けていません

Predicting 4D Hand Trajectory from Monocular Videos

要約 単眼ビデオからコヒーレントな 4D 手の軌跡を推測するアプローチである H … 続きを読む

カテゴリー: cs.CV | Predicting 4D Hand Trajectory from Monocular Videos はコメントを受け付けていません

Go-with-the-Flow: Motion-Controllable Video Diffusion Models Using Real-Time Warped Noise

要約 生成モデリングは、ランダム ノイズを構造化された出力に変換することを目的と … 続きを読む

カテゴリー: cs.CV | Go-with-the-Flow: Motion-Controllable Video Diffusion Models Using Real-Time Warped Noise はコメントを受け付けていません

MangaNinja: Line Art Colorization with Precise Reference Following

要約 拡散モデルから派生した MangaNinjia は、リファレンスに基づいた … 続きを読む

カテゴリー: cs.CV | MangaNinja: Line Art Colorization with Precise Reference Following はコメントを受け付けていません

DAViD: Modeling Dynamic Affordance of 3D Objects using Pre-trained Video Diffusion Models

要約 AI が日常生活を改善するには、人間の物体使用能力を理解することが不可欠で … 続きを読む

カテゴリー: cs.CV | DAViD: Modeling Dynamic Affordance of 3D Objects using Pre-trained Video Diffusion Models はコメントを受け付けていません

Vid2Sim: Realistic and Interactive Simulation from Video for Urban Navigation

要約 シミュレーションと現実のギャップは、シミュレーションにおけるロボット学習に … 続きを読む

カテゴリー: cs.CV, cs.RO | Vid2Sim: Realistic and Interactive Simulation from Video for Urban Navigation はコメントを受け付けていません

Rethinking Decoders for Transformer-based Semantic Segmentation: A Compression Perspective

要約 Transformer ベースのセマンティック セグメンテーションの最先端 … 続きを読む

カテゴリー: cs.CV, cs.LG | Rethinking Decoders for Transformer-based Semantic Segmentation: A Compression Perspective はコメントを受け付けていません

BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature

要約 ビジョン言語モデル (VLM) の開発は、大規模で多様なマルチモーダル デ … 続きを読む

カテゴリー: cs.CL, cs.CV | BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature はコメントを受け付けていません

Application of Vision-Language Model to Pedestrians Behavior and Scene Understanding in Autonomous Driving

要約 自動運転 (AD) は近年大幅に改善され、3D 検出、分類、位置特定の有望 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Application of Vision-Language Model to Pedestrians Behavior and Scene Understanding in Autonomous Driving はコメントを受け付けていません

Vid2Sim: Realistic and Interactive Simulation from Video for Urban Navigation

要約 シミュレーションと現実のギャップは、シミュレーションにおけるロボット学習に … 続きを読む

カテゴリー: cs.CV, cs.RO | Vid2Sim: Realistic and Interactive Simulation from Video for Urban Navigation はコメントを受け付けていません