月別アーカイブ: 2024年1月

GPT4Ego: Unleashing the Potential of Pre-trained Models for Zero-Shot Egocentric Action Recognition

投稿日: 2024年1月19日作成者: jarxiv

要約大規模なデータセットで事前トレーニングされた視覚言語モデル (VLM) は … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

CMFN: Cross-Modal Fusion Network for Irregular Scene Text Recognition

投稿日: 2024年1月19日作成者: jarxiv

要約シーンテキスト認識は、視覚とテキストを含むクロスモーダルタスクとして、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

RTFS-Net: Recurrent time-frequency modelling for efficient audio-visual speech separation

投稿日: 2024年1月19日作成者: jarxiv

要約視聴覚音声分離手法は、さまざまなモダリティを統合して高品質の分離音声を生成 … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Deep spatial context: when attention-based models meet spatial regression

投稿日: 2024年1月19日作成者: jarxiv

要約我々は、空間コンテキストの概念を使用した注意ベースの視覚モデルの研究に役立 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

ContextMix: A context-aware data augmentation method for industrial visual inspection systems

投稿日: 2024年1月19日作成者: jarxiv

要約ディープニューラルネットワークが目覚ましいパフォーマンスを達成する一方 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

FedA3I: Annotation Quality-Aware Aggregation for Federated Medical Image Segmentation against Heterogeneous Annotation Noise

投稿日: 2024年1月19日作成者: jarxiv

要約フェデレーテッドラーニング (FL) は、そのプライバシー保護特性により … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

DiffusionGPT: LLM-Driven Text-to-Image Generation System

投稿日: 2024年1月19日作成者: jarxiv

要約拡散モデルは画像生成の分野に新たな道を切り開き、その結果、オープンソース … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

GIVT: Generative Infinite-Vocabulary Transformers

投稿日: 2024年1月19日作成者: jarxiv

要約有限語彙からの離散トークンの代わりに、実数値エントリを含むベクトルシーケ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Cross-Modality Perturbation Synergy Attack for Person Re-identification

投稿日: 2024年1月19日作成者: jarxiv

要約近年、RGB 画像に基づくシングルモーダル個人再識別 (ReID) システ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Hierarchical Masked 3D Diffusion Model for Video Outpainting

投稿日: 2024年1月19日作成者: jarxiv

要約ビデオアウトペイントは、ビデオフレームの端にある欠落領域を適切に補完す … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2024年1月

GPT4Ego: Unleashing the Potential of Pre-trained Models for Zero-Shot Egocentric Action Recognition

CMFN: Cross-Modal Fusion Network for Irregular Scene Text Recognition

RTFS-Net: Recurrent time-frequency modelling for efficient audio-visual speech separation

Deep spatial context: when attention-based models meet spatial regression

ContextMix: A context-aware data augmentation method for industrial visual inspection systems

FedA3I: Annotation Quality-Aware Aggregation for Federated Medical Image Segmentation against Heterogeneous Annotation Noise

DiffusionGPT: LLM-Driven Text-to-Image Generation System

GIVT: Generative Infinite-Vocabulary Transformers

Cross-Modality Perturbation Synergy Attack for Person Re-identification

Hierarchical Masked 3D Diffusion Model for Video Outpainting

最近の投稿

最近のコメント

アーカイブ

カテゴリー