月別アーカイブ: 2024年3月

SeD: Semantic-Aware Discriminator for Image Super-Resolution

要約 Generative Adversarial Networks (GAN) … 続きを読む

カテゴリー: cs.CV, eess.IV | SeD: Semantic-Aware Discriminator for Image Super-Resolution はコメントを受け付けていません

Assessing Visually-Continuous Corruption Robustness of Neural Networks Relative to Human Performance

要約 ニューラル ネットワーク (NN) は、ImageNet 上の画像分類にお … 続きを読む

カテゴリー: cs.CV | Assessing Visually-Continuous Corruption Robustness of Neural Networks Relative to Human Performance はコメントを受け付けていません

Entity-Aware Multimodal Alignment Framework for News Image Captioning

要約 ニュース画像のキャプション タスクは、画像キャプション タスクの変形であり … 続きを読む

カテゴリー: cs.CL, cs.CV | Entity-Aware Multimodal Alignment Framework for News Image Captioning はコメントを受け付けていません

Navigating Hallucinations for Reasoning of Unintentional Activities

要約 この研究では、ビデオ内の意図しない人間の活動を理解するという新しい課題を提 … 続きを読む

カテゴリー: cs.CV | Navigating Hallucinations for Reasoning of Unintentional Activities はコメントを受け付けていません

PEM: Prototype-based Efficient MaskFormer for Image Segmentation

要約 最近のトランスフォーマーベースのアーキテクチャは、画像セグメンテーションの … 続きを読む

カテゴリー: cs.AI, cs.CV | PEM: Prototype-based Efficient MaskFormer for Image Segmentation はコメントを受け付けていません

Leveraging AI Predicted and Expert Revised Annotations in Interactive Segmentation: Continual Tuning or Full Training?

要約 AI アルゴリズムと人間の専門知識を統合したインタラクティブなセグメンテー … 続きを読む

カテゴリー: cs.AI, cs.CV | Leveraging AI Predicted and Expert Revised Annotations in Interactive Segmentation: Continual Tuning or Full Training? はコメントを受け付けていません

Listening to the Noise: Blind Denoising with Gibbs Diffusion

要約 近年、ノイズ除去の問題が深い生成モデルの開発と絡み合うようになりました。 … 続きを読む

カテゴリー: astro-ph.CO, cs.CV, cs.LG, eess.SP, stat.ML | Listening to the Noise: Blind Denoising with Gibbs Diffusion はコメントを受け付けていません

SeMoLi: What Moves Together Belongs Together

要約 私たちは、モーションキューに基づいた半教師あり物体検出に取り組みます。 最 … 続きを読む

カテゴリー: cs.CV | SeMoLi: What Moves Together Belongs Together はコメントを受け付けていません

TV-TREES: Multimodal Entailment Trees for Neuro-Symbolic Video Reasoning

要約 テレビ クリップなどの複雑でマルチモーダルなコンテンツに対して質問応答を実 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, I.2.10 | TV-TREES: Multimodal Entailment Trees for Neuro-Symbolic Video Reasoning はコメントを受け付けていません

Surgical Tattoos in Infrared: A Dataset for Quantifying Tissue Tracking and Mapping

要約 内視鏡環境で組織を追跡およびマッピングする方法のパフォーマンスを定量化する … 続きを読む

カテゴリー: cs.CV | Surgical Tattoos in Infrared: A Dataset for Quantifying Tissue Tracking and Mapping はコメントを受け付けていません