投稿者「jarxiv」のアーカイブ

Parallel Sequence Modeling via Generalized Spatial Propagation Network

投稿日: 2025年1月22日作成者: jarxiv

要約本質的に 2D 空間構造を捕捉する視覚タスク用に最適化された新しい注意メカ … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

DiffDoctor: Diagnosing Image Diffusion Models Before Treating

投稿日: 2025年1月22日作成者: jarxiv

要約最近の進歩にもかかわらず、画像拡散モデルは依然としてアーチファクトを生成し … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

CCESAR: Coastline Classification-Extraction From SAR Images Using CNN-U-Net Combination

投稿日: 2025年1月22日作成者: jarxiv

要約この記事では、画像分類とそれに続くセグメンテーションを含む 2 段階のモデ … 続きを読む →

カテゴリー: cs.CV, cs.LG, eess.IV | コメントを受け付けていません

InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling

投稿日: 2025年1月22日作成者: jarxiv

要約このペーパーは、ロングアンドリッチコンテキスト (LRC) モデリン … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Continuous 3D Perception Model with Persistent State

投稿日: 2025年1月22日作成者: jarxiv

要約幅広い 3D タスクを解決できる統合フレームワークを紹介します。私たちの … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Taming Teacher Forcing for Masked Autoregressive Video Generation

投稿日: 2025年1月22日作成者: jarxiv

要約フレーム内生成のためのマスクされたモデリングと次のフレーム生成のための因果 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

GPS as a Control Signal for Image Generation

投稿日: 2025年1月22日作成者: jarxiv

要約写真メタデータに含まれる GPS タグが画像生成に有用な制御信号を提供する … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Learning segmentation from point trajectories

投稿日: 2025年1月22日作成者: jarxiv

要約私たちは、他の形式の監視ではなく、動きに基づいてビデオ内のオブジェクトをセ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Towards Affordance-Aware Articulation Synthesis for Rigged Objects

投稿日: 2025年1月22日作成者: jarxiv

要約リグ付きオブジェクトは、さまざまなシーンや姿勢に柔軟に適応できるため、アー … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

FoundationStereo: Zero-Shot Stereo Matching

投稿日: 2025年1月22日作成者: jarxiv

要約ドメインごとの微調整により、ベンチマークデータセットで優れたディープス … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

Parallel Sequence Modeling via Generalized Spatial Propagation Network

DiffDoctor: Diagnosing Image Diffusion Models Before Treating

CCESAR: Coastline Classification-Extraction From SAR Images Using CNN-U-Net Combination

InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling

Continuous 3D Perception Model with Persistent State

Taming Teacher Forcing for Masked Autoregressive Video Generation

GPS as a Control Signal for Image Generation

Learning segmentation from point trajectories

Towards Affordance-Aware Articulation Synthesis for Rigged Objects

FoundationStereo: Zero-Shot Stereo Matching

最近の投稿

最近のコメント

アーカイブ

カテゴリー