月別アーカイブ: 2024年1月

GPT4Ego: Unleashing the Potential of Pre-trained Models for Zero-Shot Egocentric Action Recognition

要約 大規模なデータセットで事前トレーニングされた視覚言語モデル (VLM) は … 続きを読む

カテゴリー: cs.CV | GPT4Ego: Unleashing the Potential of Pre-trained Models for Zero-Shot Egocentric Action Recognition はコメントを受け付けていません

CMFN: Cross-Modal Fusion Network for Irregular Scene Text Recognition

要約 シーン テキスト認識は、視覚とテキストを含むクロスモーダル タスクとして、 … 続きを読む

カテゴリー: cs.CV | CMFN: Cross-Modal Fusion Network for Irregular Scene Text Recognition はコメントを受け付けていません

RTFS-Net: Recurrent time-frequency modelling for efficient audio-visual speech separation

要約 視聴覚音声分離手法は、さまざまなモダリティを統合して高品質の分離音声を生成 … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | RTFS-Net: Recurrent time-frequency modelling for efficient audio-visual speech separation はコメントを受け付けていません

Deep spatial context: when attention-based models meet spatial regression

要約 我々は、空間コンテキストの概念を使用した注意ベースの視覚モデルの研究に役立 … 続きを読む

カテゴリー: cs.CV | Deep spatial context: when attention-based models meet spatial regression はコメントを受け付けていません

ContextMix: A context-aware data augmentation method for industrial visual inspection systems

要約 ディープ ニューラル ネットワークが目覚ましいパフォーマンスを達成する一方 … 続きを読む

カテゴリー: cs.CV | ContextMix: A context-aware data augmentation method for industrial visual inspection systems はコメントを受け付けていません

FedA3I: Annotation Quality-Aware Aggregation for Federated Medical Image Segmentation against Heterogeneous Annotation Noise

要約 フェデレーテッド ラーニング (FL) は、そのプライバシー保護特性により … 続きを読む

カテゴリー: cs.CV, cs.LG | FedA3I: Annotation Quality-Aware Aggregation for Federated Medical Image Segmentation against Heterogeneous Annotation Noise はコメントを受け付けていません

DiffusionGPT: LLM-Driven Text-to-Image Generation System

要約 拡散モデルは画像生成の分野に新たな道を切り開き、その結果、オープンソース … 続きを読む

カテゴリー: cs.AI, cs.CV | DiffusionGPT: LLM-Driven Text-to-Image Generation System はコメントを受け付けていません

GIVT: Generative Infinite-Vocabulary Transformers

要約 有限語彙からの離散トークンの代わりに、実数値エントリを含むベクトル シーケ … 続きを読む

カテゴリー: cs.CV | GIVT: Generative Infinite-Vocabulary Transformers はコメントを受け付けていません

Cross-Modality Perturbation Synergy Attack for Person Re-identification

要約 近年、RGB 画像に基づくシングルモーダル個人再識別 (ReID) システ … 続きを読む

カテゴリー: cs.CV | Cross-Modality Perturbation Synergy Attack for Person Re-identification はコメントを受け付けていません

Hierarchical Masked 3D Diffusion Model for Video Outpainting

要約 ビデオ アウトペイントは、ビデオ フレームの端にある欠落領域を適切に補完す … 続きを読む

カテゴリー: cs.CV | Hierarchical Masked 3D Diffusion Model for Video Outpainting はコメントを受け付けていません