投稿者「jarxiv」のアーカイブ

Latent Multimodal Reconstruction for Misinformation Detection

要約 キャプションが画像の起源、コンテキスト、または意味を誤って伝えた誤った画像 … 続きを読む

カテゴリー: cs.CV, cs.MM | Latent Multimodal Reconstruction for Misinformation Detection はコメントを受け付けていません

Memory-Modular Classification: Learning to Generalize with Memory Replacement

要約 知識の記憶を推論と分離する画像分類のために、新しいメモリモジュラー学習者を … 続きを読む

カテゴリー: cs.CV | Memory-Modular Classification: Learning to Generalize with Memory Replacement はコメントを受け付けていません

CamContextI2V: Context-aware Controllable Video Generation

要約 最近、画像間(I2V)拡散モデルは、発生を導くための画像条件を組み込んだ印 … 続きを読む

カテゴリー: cs.CV | CamContextI2V: Context-aware Controllable Video Generation はコメントを受け付けていません

Style-Editor: Text-driven object-centric style editing

要約 テキスト入力を使用してオブジェクト中心のレベルでスタイル編集をガイドする新 … 続きを読む

カテゴリー: cs.CV | Style-Editor: Text-driven object-centric style editing はコメントを受け付けていません

OSDM-MReg: Multimodal Image Registration based One Step Diffusion Model

要約 マルチモーダルリモートセンシング画像登録は、データの融合と分析のために、さ … 続きを読む

カテゴリー: cs.CV, eess.IV | OSDM-MReg: Multimodal Image Registration based One Step Diffusion Model はコメントを受け付けていません

Multi-Task Faces (MTF) Data Set: A Legally and Ethically Compliant Collection of Face Images for Various Classification Tasks

要約 人間の顔データは、顔認識、年齢の推定、性別の識別、感情分析、人種分類など、 … 続きを読む

カテゴリー: cs.CV, cs.LG | Multi-Task Faces (MTF) Data Set: A Legally and Ethically Compliant Collection of Face Images for Various Classification Tasks はコメントを受け付けていません

Enhanced Anomaly Detection for Capsule Endoscopy Using Ensemble Learning Strategies

要約 カプセル内視鏡検査は、胃腸管の画像をキャプチャし、標準的な内視鏡で調査され … 続きを読む

カテゴリー: cs.CV | Enhanced Anomaly Detection for Capsule Endoscopy Using Ensemble Learning Strategies はコメントを受け付けていません

Self-Supervised Siamese Autoencoders

要約 完全に監視されたモデルとは対照的に、自己教師の表現学習は、ラベルを付けるた … 続きを読む

カテゴリー: cs.CV, cs.LG, stat.ML | Self-Supervised Siamese Autoencoders はコメントを受け付けていません

A Multi-Scale Feature Fusion Framework Integrating Frequency Domain and Cross-View Attention for Dual-View X-ray Security Inspections

要約 近代的な輸送システムの急速な発展と物流量の指数関数的な成長により、インテリ … 続きを読む

カテゴリー: cs.CV | A Multi-Scale Feature Fusion Framework Integrating Frequency Domain and Cross-View Attention for Dual-View X-ray Security Inspections はコメントを受け付けていません

MAPLE: Encoding Dexterous Robotic Manipulation Priors Learned From Egocentric Videos

要約 大規模なエゴセントリックビデオデータセットは、幅広いシナリオにわたって多様 … 続きを読む

カテゴリー: cs.CV, cs.RO | MAPLE: Encoding Dexterous Robotic Manipulation Priors Learned From Egocentric Videos はコメントを受け付けていません