「cs.CV」カテゴリーアーカイブ

Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks

投稿日: 2025年1月15日作成者: jarxiv

要約私たちは、画像とビデオの両方の領域レベルの理解を容易にするように設計された … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Predicting 4D Hand Trajectory from Monocular Videos

投稿日: 2025年1月15日作成者: jarxiv

要約単眼ビデオからコヒーレントな 4D 手の軌跡を推測するアプローチである H … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Go-with-the-Flow: Motion-Controllable Video Diffusion Models Using Real-Time Warped Noise

投稿日: 2025年1月15日作成者: jarxiv

要約生成モデリングは、ランダムノイズを構造化された出力に変換することを目的と … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MangaNinja: Line Art Colorization with Precise Reference Following

投稿日: 2025年1月15日作成者: jarxiv

要約拡散モデルから派生した MangaNinjia は、リファレンスに基づいた … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

DAViD: Modeling Dynamic Affordance of 3D Objects using Pre-trained Video Diffusion Models

投稿日: 2025年1月15日作成者: jarxiv

要約 AI が日常生活を改善するには、人間の物体使用能力を理解することが不可欠で … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Vid2Sim: Realistic and Interactive Simulation from Video for Urban Navigation

投稿日: 2025年1月15日作成者: jarxiv

要約シミュレーションと現実のギャップは、シミュレーションにおけるロボット学習に … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Rethinking Decoders for Transformer-based Semantic Segmentation: A Compression Perspective

投稿日: 2025年1月15日作成者: jarxiv

要約 Transformer ベースのセマンティックセグメンテーションの最先端 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature

投稿日: 2025年1月15日作成者: jarxiv

要約ビジョン言語モデル (VLM) の開発は、大規模で多様なマルチモーダルデ … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Application of Vision-Language Model to Pedestrians Behavior and Scene Understanding in Autonomous Driving

投稿日: 2025年1月14日作成者: jarxiv

要約自動運転 (AD) は近年大幅に改善され、3D 検出、分類、位置特定の有望 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

Vid2Sim: Realistic and Interactive Simulation from Video for Urban Navigation

投稿日: 2025年1月14日作成者: jarxiv

要約シミュレーションと現実のギャップは、シミュレーションにおけるロボット学習に … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks

Predicting 4D Hand Trajectory from Monocular Videos

Go-with-the-Flow: Motion-Controllable Video Diffusion Models Using Real-Time Warped Noise

MangaNinja: Line Art Colorization with Precise Reference Following

DAViD: Modeling Dynamic Affordance of 3D Objects using Pre-trained Video Diffusion Models

Vid2Sim: Realistic and Interactive Simulation from Video for Urban Navigation

Rethinking Decoders for Transformer-based Semantic Segmentation: A Compression Perspective

BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature

Application of Vision-Language Model to Pedestrians Behavior and Scene Understanding in Autonomous Driving

Vid2Sim: Realistic and Interactive Simulation from Video for Urban Navigation

最近の投稿

最近のコメント

アーカイブ

カテゴリー