cs.AI」カテゴリーアーカイブ

Efficient Bilinear Attention-based Fusion for Medical Visual Question Answering

要約 Medical Visual Question Answering (Me … 続きを読む

カテゴリー: cs.AI, cs.CV, eess.IV | Efficient Bilinear Attention-based Fusion for Medical Visual Question Answering はコメントを受け付けていません

Informed Deep Abstaining Classifier: Investigating noise-robust training for diagnostic decision support systems

要約 深層学習を利用した画像ベースの診断意思決定支援システム (DDSS) には … 続きを読む

カテゴリー: cs.AI, cs.CV | Informed Deep Abstaining Classifier: Investigating noise-robust training for diagnostic decision support systems はコメントを受け付けていません

Kandinsky 3: Text-to-Image Synthesis for Multifunctional Generative Framework

要約 テキストから画像への (T2I) 拡散モデルは、編集、画像の融合、修復など … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Kandinsky 3: Text-to-Image Synthesis for Multifunctional Generative Framework はコメントを受け付けていません

Efficient Mixture-of-Expert for Video-based Driver State and Physiological Multi-task Estimation in Conditional Autonomous Driving

要約 交通安全は依然として世界中で重要な課題であり、交通事故による死者は年間約 … 続きを読む

カテゴリー: cs.AI, cs.CV | Efficient Mixture-of-Expert for Video-based Driver State and Physiological Multi-task Estimation in Conditional Autonomous Driving はコメントを受け付けていません

Attack-Resilient Image Watermarking Using Stable Diffusion

要約 画像に透かしを入れることは、画像の出所を追跡し、所有権を証明するために重要 … 続きを読む

カテゴリー: cs.AI, cs.CV | Attack-Resilient Image Watermarking Using Stable Diffusion はコメントを受け付けていません

Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction

要約 文書解析は、契約書、学術論文、請求書などの非構造化文書および半構造化文書を … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction はコメントを受け付けていません

Deep Learning-Based Fatigue Cracks Detection in Bridge Girders using Feature Pyramid Networks

要約 構造健全性モニタリングでは、継続的かつ自動で亀裂を検出することが困難な問題 … 続きを読む

カテゴリー: cs.AI, cs.CV | Deep Learning-Based Fatigue Cracks Detection in Bridge Girders using Feature Pyramid Networks はコメントを受け付けていません

Aligning Text-to-Image Diffusion Models with Reward Backpropagation

要約 テキストから画像への拡散モデルは、非常に大規模な教師なしまたは弱く教師付き … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Aligning Text-to-Image Diffusion Models with Reward Backpropagation はコメントを受け付けていません

SAM 2: Segment Anything in Images and Videos

要約 私たちは、画像やビデオの視覚的なセグメンテーションを迅速に解決するための基 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | SAM 2: Segment Anything in Images and Videos はコメントを受け付けていません

Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines

要約 検索エンジンでは未知の情報をテキストで検索することができます。 ただし、モ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.IR, cs.LG | Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines はコメントを受け付けていません