月別アーカイブ: 2023年1月

Learning Multimodal Data Augmentation in Feature Space

要約 テキスト、オーディオ、ビジュアル データなどの複数のモダリティから共同で学 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | Learning Multimodal Data Augmentation in Feature Space はコメントを受け付けていません

Learning 3D Human Pose Estimation from Dozens of Datasets using a Geometry-Aware Autoencoder to Bridge Between Skeleton Formats

要約 深層学習ベースの 3D 人間の姿勢推定は、ラベル付けされた大量のデータでト … 続きを読む

カテゴリー: cs.CV, I.2.10 | Learning 3D Human Pose Estimation from Dozens of Datasets using a Geometry-Aware Autoencoder to Bridge Between Skeleton Formats はコメントを受け付けていません

Improving Visual Representation Learning through Perceptual Understanding

要約 より高いシーンレベルの機能の学習を明示的に奨励することにより、モデルによっ … 続きを読む

カテゴリー: cs.CV | Improving Visual Representation Learning through Perceptual Understanding はコメントを受け付けていません

IDET: Iterative Difference-Enhanced Transformers for High-Quality Change Detection

要約 変化検出 (CD) は、異なる時間にキャプチャされた画像ペア内の変化領域を … 続きを読む

カテゴリー: cs.CV | IDET: Iterative Difference-Enhanced Transformers for High-Quality Change Detection はコメントを受け付けていません

Predictive Coding Based Multiscale Network with Encoder-Decoder LSTM for Video Prediction

要約 ここでは、ビデオ予測用のマルチスケール予測モデルを紹介します。その設計は、 … 続きを読む

カテゴリー: cs.AI, cs.CV | Predictive Coding Based Multiscale Network with Encoder-Decoder LSTM for Video Prediction はコメントを受け付けていません

Scale-MAE: A Scale-Aware Masked Autoencoder for Multiscale Geospatial Representation Learning

要約 リモート センシング画像は地球の包括的なビューを提供し、さまざまなセンサー … 続きを読む

カテゴリー: cs.CV | Scale-MAE: A Scale-Aware Masked Autoencoder for Multiscale Geospatial Representation Learning はコメントを受け付けていません

HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training

要約 ビデオ言語の事前トレーニングにより、下流のさまざまなビデオ言語タスクのパフ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training はコメントを受け付けていません

An Experience-based Direct Generation approach to Automatic Image Cropping

要約 自動画像クロッピングは、多くの実用的なダウンストリーム アプリケーションで … 続きを読む

カテゴリー: cs.CV, cs.LG | An Experience-based Direct Generation approach to Automatic Image Cropping はコメントを受け付けていません

A Fine-Grained Vehicle Detection (FGVD) Dataset for Unconstrained Roads

要約 以前のきめの細かいデータセットは主に分類に焦点を当てており、多くの場合、オ … 続きを読む

カテゴリー: cs.CV | A Fine-Grained Vehicle Detection (FGVD) Dataset for Unconstrained Roads はコメントを受け付けていません

NIRVANA: Neural Implicit Representations of Videos with Adaptive Networks and Autoregressive Patch-wise Modeling

要約 Implicit Neural Representations (INR) … 続きを読む

カテゴリー: cs.CV | NIRVANA: Neural Implicit Representations of Videos with Adaptive Networks and Autoregressive Patch-wise Modeling はコメントを受け付けていません