月別アーカイブ: 2023年6月

Global and Local Semantic Completion Learning for Vision-Language Pre-training

要約 クロスモーダル アライメントは、視覚言語事前トレーニング (VLP) モデ … 続きを読む

カテゴリー: cs.CV | Global and Local Semantic Completion Learning for Vision-Language Pre-training はコメントを受け付けていません

Rotation and Translation Invariant Representation Learning with Implicit Neural Representations

要約 多くのコンピュータ ビジョン アプリケーションでは、画像は任意またはランダ … 続きを読む

カテゴリー: cs.AI, cs.CV | Rotation and Translation Invariant Representation Learning with Implicit Neural Representations はコメントを受け付けていません

Spawrious: A Benchmark for Fine Control of Spurious Correlation Biases

要約 擬似相関 (SC) の問題は、分類器がトレーニング データ内のラベルと偶然 … 続きを読む

カテゴリー: cs.CV, cs.LG | Spawrious: A Benchmark for Fine Control of Spurious Correlation Biases はコメントを受け付けていません

InstructP2P: Learning to Edit 3D Point Clouds with Text Instructions

要約 人間の指示に従ってタスクを実行できるように AI システムを強化すると、生 … 続きを読む

カテゴリー: cs.CV | InstructP2P: Learning to Edit 3D Point Clouds with Text Instructions はコメントを受け付けていません

Frequency-Based Vulnerability Analysis of Deep Learning Models against Image Corruptions

要約 深層学習モデルは、現実世界の画像破損を処理する際に課題に直面することがよく … 続きを読む

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG | Frequency-Based Vulnerability Analysis of Deep Learning Models against Image Corruptions はコメントを受け付けていません

CD-CTFM: A Lightweight CNN-Transformer Network for Remote Sensing Cloud Detection Fusing Multiscale Features

要約 リモートセンシング画像に含まれる雲は情報抽出に必ず影響を及ぼし、その後の衛 … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.IV | CD-CTFM: A Lightweight CNN-Transformer Network for Remote Sensing Cloud Detection Fusing Multiscale Features はコメントを受け付けていません

Retrieval-Enhanced Contrastive Vision-Text Models

要約 CLIP などの対照的な画像テキスト モデルは、多くの最先端システムの構成 … 続きを読む

カテゴリー: cs.CV | Retrieval-Enhanced Contrastive Vision-Text Models はコメントを受け付けていません

AROID: Improving Adversarial Robustness through Online Instance-wise Data Augmentation

要約 ディープ ニューラル ネットワークは、敵対的な例に対して脆弱です。 敵対的 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | AROID: Improving Adversarial Robustness through Online Instance-wise Data Augmentation はコメントを受け付けていません

Fill-Up: Balancing Long-Tailed Data with Generative Models

要約 最新のテキストから画像への合成モデルは、並外れたレベルのフォトリアリズムを … 続きを読む

カテゴリー: cs.CV, cs.LG | Fill-Up: Balancing Long-Tailed Data with Generative Models はコメントを受け付けていません

Valley: Video Assistant with Large Language model Enhanced abilitY

要約 最近、画像と言語を共同理解するためにいくつかのマルチモーダル モデルが開発 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Valley: Video Assistant with Large Language model Enhanced abilitY はコメントを受け付けていません