月別アーカイブ: 2025年1月

ClawMachine: Learning to Fetch Visual Tokens for Referential Comprehension

要約 視覚と言語の概念をより細かいレベルで調整することは、特に参照やグラウンディ … 続きを読む

カテゴリー: cs.CV | ClawMachine: Learning to Fetch Visual Tokens for Referential Comprehension はコメントを受け付けていません

You Only Crash Once v2: Perceptually Consistent Strong Features for One-Stage Domain Adaptive Detection of Space Terrain

要約 惑星、月、および小体の表面地形の現場検出は、学習ベースのコンピュータービジ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | You Only Crash Once v2: Perceptually Consistent Strong Features for One-Stage Domain Adaptive Detection of Space Terrain はコメントを受け付けていません

Is Large-Scale Pretraining the Secret to Good Domain Generalization?

要約 マルチソースドメイン一般化(DG)は、複数のソースドメインでトレーニングし … 続きを読む

カテゴリー: cs.CV, cs.LG | Is Large-Scale Pretraining the Secret to Good Domain Generalization? はコメントを受け付けていません

On Disentangled Training for Nonlinear Transform in Learned Image Compression

要約 学習済み画像圧縮 (LIC) は、従来のコーデックと比較して優れたレート歪 … 続きを読む

カテゴリー: cs.CV, eess.IV | On Disentangled Training for Nonlinear Transform in Learned Image Compression はコメントを受け付けていません

Solving the long-tailed distribution problem by exploiting the synergies and balance of different techniques

要約 現実世界のデータでは、ロングテールのデータ分布が一般的であるため、経験に基 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Solving the long-tailed distribution problem by exploiting the synergies and balance of different techniques はコメントを受け付けていません

Invariance Principle Meets Vicinal Risk Minimization

要約 深層学習モデルはコンピューター ビジョン タスクでは優れていますが、多くの … 続きを読む

カテゴリー: cs.CV | Invariance Principle Meets Vicinal Risk Minimization はコメントを受け付けていません

How to Efficiently Annotate Images for Best-Performing Deep Learning Based Segmentation Models: An Empirical Study with Weak and Noisy Annotations and Segment Anything Model

要約 ディープ ニューラル ネットワーク (DNN) は、さまざまな画像セグメン … 続きを読む

カテゴリー: cs.CV | How to Efficiently Annotate Images for Best-Performing Deep Learning Based Segmentation Models: An Empirical Study with Weak and Noisy Annotations and Segment Anything Model はコメントを受け付けていません

Training-Free Zero-Shot Temporal Action Detection with Vision-Language Models

要約 既存のゼロショット時間的アクション検出(ZSTAD)メソッドは、目に見えな … 続きを読む

カテゴリー: cs.CV | Training-Free Zero-Shot Temporal Action Detection with Vision-Language Models はコメントを受け付けていません

PromptMono: Cross Prompting Attention for Self-Supervised Monocular Depth Estimation in Challenging Environments

要約 理想的な条件下での単眼深度の推定を改善するためにかなりの努力が払われていま … 続きを読む

カテゴリー: cs.CV | PromptMono: Cross Prompting Attention for Self-Supervised Monocular Depth Estimation in Challenging Environments はコメントを受け付けていません

3DGSR: Implicit Surface Reconstruction with 3D Gaussian Splatting

要約 この論文では、3D ガウス スプラッティング (3DGS) を使用した陰的 … 続きを読む

カテゴリー: cs.CV, cs.GR | 3DGSR: Implicit Surface Reconstruction with 3D Gaussian Splatting はコメントを受け付けていません