月別アーカイブ: 2024年3月

SeD: Semantic-Aware Discriminator for Image Super-Resolution

投稿日: 2024年3月1日作成者: jarxiv

要約 Generative Adversarial Networks (GAN) … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

Assessing Visually-Continuous Corruption Robustness of Neural Networks Relative to Human Performance

投稿日: 2024年3月1日作成者: jarxiv

要約ニューラルネットワーク (NN) は、ImageNet 上の画像分類にお … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Entity-Aware Multimodal Alignment Framework for News Image Captioning

投稿日: 2024年3月1日作成者: jarxiv

要約ニュース画像のキャプションタスクは、画像キャプションタスクの変形であり … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Navigating Hallucinations for Reasoning of Unintentional Activities

投稿日: 2024年3月1日作成者: jarxiv

要約この研究では、ビデオ内の意図しない人間の活動を理解するという新しい課題を提 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

PEM: Prototype-based Efficient MaskFormer for Image Segmentation

投稿日: 2024年3月1日作成者: jarxiv

要約最近のトランスフォーマーベースのアーキテクチャは、画像セグメンテーションの … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Leveraging AI Predicted and Expert Revised Annotations in Interactive Segmentation: Continual Tuning or Full Training?

投稿日: 2024年3月1日作成者: jarxiv

要約 AI アルゴリズムと人間の専門知識を統合したインタラクティブなセグメンテー … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Listening to the Noise: Blind Denoising with Gibbs Diffusion

投稿日: 2024年3月1日作成者: jarxiv

要約近年、ノイズ除去の問題が深い生成モデルの開発と絡み合うようになりました。 … 続きを読む →

カテゴリー: astro-ph.CO, cs.CV, cs.LG, eess.SP, stat.ML | コメントを受け付けていません

SeMoLi: What Moves Together Belongs Together

投稿日: 2024年3月1日作成者: jarxiv

要約私たちは、モーションキューに基づいた半教師あり物体検出に取り組みます。最 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

TV-TREES: Multimodal Entailment Trees for Neuro-Symbolic Video Reasoning

投稿日: 2024年3月1日作成者: jarxiv

要約テレビクリップなどの複雑でマルチモーダルなコンテンツに対して質問応答を実 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, I.2.10 | コメントを受け付けていません

Surgical Tattoos in Infrared: A Dataset for Quantifying Tissue Tracking and Mapping

投稿日: 2024年3月1日作成者: jarxiv

要約内視鏡環境で組織を追跡およびマッピングする方法のパフォーマンスを定量化する … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2024年3月

SeD: Semantic-Aware Discriminator for Image Super-Resolution

Assessing Visually-Continuous Corruption Robustness of Neural Networks Relative to Human Performance

Entity-Aware Multimodal Alignment Framework for News Image Captioning

Navigating Hallucinations for Reasoning of Unintentional Activities

PEM: Prototype-based Efficient MaskFormer for Image Segmentation

Leveraging AI Predicted and Expert Revised Annotations in Interactive Segmentation: Continual Tuning or Full Training?

Listening to the Noise: Blind Denoising with Gibbs Diffusion

SeMoLi: What Moves Together Belongs Together

TV-TREES: Multimodal Entailment Trees for Neuro-Symbolic Video Reasoning

Surgical Tattoos in Infrared: A Dataset for Quantifying Tissue Tracking and Mapping

最近の投稿

最近のコメント

アーカイブ

カテゴリー