月別アーカイブ: 2024年3月

You Only Learn One Query: Learning Unified Human Query for Single-Stage Multi-Person Multi-Task Human-Centric Perception

投稿日: 2024年3月15日作成者: jarxiv

要約人間中心の認識 (歩行者の検出、セグメンテーション、姿勢推定、属性分析など … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding

投稿日: 2024年3月15日作成者: jarxiv

要約テキストからビジュアルコンポーネントへの進化により、テキストから画像やビデ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.GR | コメントを受け付けていません

Mamba-ND: Selective State Space Modeling for Multi-Dimensional Data

投稿日: 2024年3月15日作成者: jarxiv

要約近年、Transformers は、テキストおよび画像やビデオなどのさまざ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

TTA-Nav: Test-time Adaptive Reconstruction for Point-Goal Navigation under Visual Corruptions

投稿日: 2024年3月15日作成者: jarxiv

要約視覚的に破損した状態でのロボットのナビゲーションは、大きな課題となります。 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

Explorations in Texture Learning

投稿日: 2024年3月15日作成者: jarxiv

要約この研究では、\textit{テクスチャ学習}、つまりオブジェクト分類モデ … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Probabilistic Contrastive Learning for Long-Tailed Visual Recognition

投稿日: 2024年3月15日作成者: jarxiv

要約現実世界のデータでは、多数の少数カテゴリーに限られた数のサンプルが含まれる … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

ZeroFlow: Scalable Scene Flow via Distillation

投稿日: 2024年3月15日作成者: jarxiv

要約シーンフロー推定は、時間的に連続する点群間の 3D モーションフィール … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

WeakSurg: Weakly supervised surgical instrument segmentation using temporal equivariance and semantic continuity

投稿日: 2024年3月15日作成者: jarxiv

要約器具の存在ラベルのみを使用した弱く監視された外科器具のセグメンテーションは … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Cloud gap-filling with deep learning for improved grassland monitoring

投稿日: 2024年3月15日作成者: jarxiv

要約途切れのない光学画像の時系列は、農地の変化をタイムリーに監視するために非常 … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

CURSOR: Scalable Mixed-Order Hypergraph Matching with CUR Decomposition

投稿日: 2024年3月15日作成者: jarxiv

要約より高い精度を達成するには、ハイパーグラフマッチングアルゴリズムの計算 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2024年3月

You Only Learn One Query: Learning Unified Human Query for Single-Stage Multi-Person Multi-Task Human-Centric Perception

VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding

Mamba-ND: Selective State Space Modeling for Multi-Dimensional Data

TTA-Nav: Test-time Adaptive Reconstruction for Point-Goal Navigation under Visual Corruptions

Explorations in Texture Learning

Probabilistic Contrastive Learning for Long-Tailed Visual Recognition

ZeroFlow: Scalable Scene Flow via Distillation

WeakSurg: Weakly supervised surgical instrument segmentation using temporal equivariance and semantic continuity

Cloud gap-filling with deep learning for improved grassland monitoring

CURSOR: Scalable Mixed-Order Hypergraph Matching with CUR Decomposition

最近の投稿

最近のコメント

アーカイブ

カテゴリー